1. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được sử dụng để so sánh sự khác biệt giữa các nhóm?
A. Giá trị trung bình
B. Phương sai
C. Độ lệch chuẩn
D. Trung vị
2. Trong phân tích dữ liệu, `outlier` (giá trị ngoại lai) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu
C. Giá trị nằm ngoài phạm vi của các giá trị khác trong tập dữ liệu
D. Giá trị nằm giữa của tập dữ liệu đã được sắp xếp
3. Trong thống kê, `population` (tổng thể) đề cập đến điều gì?
A. Một nhóm nhỏ các đối tượng được chọn ngẫu nhiên
B. Tất cả các đối tượng quan tâm trong một nghiên cứu
C. Chỉ những đối tượng có đặc điểm giống nhau
D. Các đối tượng dễ tiếp cận nhất cho nhà nghiên cứu
4. Trong thống kê ứng dụng, loại biểu đồ nào thích hợp nhất để so sánh tỷ lệ phần trăm của các danh mục khác nhau trong một tổng thể?
A. Biểu đồ đường
B. Biểu đồ cột
C. Biểu đồ phân tán
D. Biểu đồ tròn
5. Khoảng tin cậy (confidence interval) cung cấp thông tin gì?
A. Giá trị chính xác của tham số tổng thể
B. Ước lượng khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó, với một độ tin cậy nhất định
C. Độ lệch chuẩn của mẫu
D. Giá trị trung bình của mẫu
6. Điều gì xảy ra với khoảng tin cậy khi kích thước mẫu tăng lên?
A. Khoảng tin cậy trở nên rộng hơn
B. Khoảng tin cậy không thay đổi
C. Khoảng tin cậy trở nên hẹp hơn
D. Khoảng tin cậy biến mất
7. Trong phân tích chuỗi thời gian, phương pháp trung bình trượt (moving average) được sử dụng để làm gì?
A. Dự đoán giá trị tương lai
B. Loại bỏ xu hướng
C. Làm mịn dữ liệu và loại bỏ nhiễu
D. Xác định tính mùa vụ
8. Phương pháp nào sau đây giúp giảm số lượng biến trong một tập dữ liệu lớn trong khi vẫn giữ lại phần lớn thông tin?
A. Phân tích hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (PCA)
D. Kiểm định Chi-bình phương
9. Khi nào thì nên sử dụng biểu đồ hộp (boxplot)?
A. Để hiển thị xu hướng theo thời gian
B. Để so sánh tỷ lệ phần trăm của các danh mục
C. Để hiển thị sự phân phối của dữ liệu và xác định các giá trị ngoại lai
D. Để hiển thị mối quan hệ giữa hai biến liên tục
10. Khi nào thì kiểm định t (t-test) được sử dụng thay vì kiểm định z (z-test)?
A. Khi kích thước mẫu lớn (n > 30)
B. Khi phương sai của tổng thể đã biết
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của tổng thể chưa biết
D. Khi dữ liệu tuân theo phân phối chuẩn
11. Phương pháp nào sau đây được sử dụng để ước lượng giá trị của một biến phụ thuộc dựa trên giá trị của một hoặc nhiều biến độc lập?
A. Phân tích phương sai (ANOVA)
B. Kiểm định Chi-bình phương
C. Phân tích hồi quy
D. Phân tích thành phần chính (PCA)
12. Trong thống kê, `median` (trung vị) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu
C. Giá trị nằm giữa của tập dữ liệu đã được sắp xếp
D. Tổng của tất cả các giá trị chia cho số lượng giá trị
13. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ
D. Khi cần tính toán trung bình
14. Phân tích hồi quy logistic được sử dụng khi nào?
A. Khi biến phụ thuộc là biến định lượng liên tục
B. Khi biến phụ thuộc là biến định tính (categorical)
C. Khi không có biến độc lập
D. Khi muốn dự đoán chuỗi thời gian
15. Trong thống kê ứng dụng, `quantile` (phân vị) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu
C. Giá trị chia tập dữ liệu thành các phần bằng nhau
D. Tổng của tất cả các giá trị chia cho số lượng giá trị
16. Hệ số tương quan (correlation coefficient) có giá trị nằm trong khoảng nào?
A. Từ 0 đến 1
B. Từ -1 đến 0
C. Từ -1 đến 1
D. Từ 0 đến vô cực
17. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất mắc sai lầm loại I
C. Xác suất thu được kết quả quan sát được (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng
D. Mức ý nghĩa thống kê được chọn
18. Hệ số VIF (Variance Inflation Factor) được sử dụng để phát hiện vấn đề gì trong phân tích hồi quy?
A. Phương sai sai số thay đổi
B. Đa cộng tuyến (multicollinearity)
C. Giá trị ngoại lai
D. Dữ liệu bị thiếu
19. Sai lầm loại II (Type II error) xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó sai
B. Bác bỏ giả thuyết null khi nó đúng
C. Chấp nhận giả thuyết null khi nó đúng
D. Bác bỏ giả thuyết null khi nó sai
20. Trong phân tích chuỗi thời gian, thành phần nào sau đây mô tả sự biến động ngắn hạn và không đều đặn?
A. Xu hướng (Trend)
B. Tính mùa vụ (Seasonality)
C. Chu kỳ (Cycle)
D. Tính ngẫu nhiên (Irregularity)
21. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó sai
B. Bác bỏ giả thuyết null khi nó đúng
C. Chấp nhận giả thuyết null khi nó đúng
D. Bác bỏ giả thuyết null khi nó sai
22. Đường cong ROC (Receiver Operating Characteristic) được sử dụng để đánh giá điều gì?
A. Mức độ phù hợp của mô hình hồi quy tuyến tính
B. Hiệu suất của mô hình phân loại nhị phân
C. Tính nhất quán nội tại của một thang đo
D. Mức độ tương quan giữa hai biến
23. Phân phối Poisson thường được sử dụng để mô hình hóa điều gì?
A. Số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định
B. Chiều cao của con người
C. Điểm số trong một bài kiểm tra
D. Thu nhập của một cá nhân
24. Trong kiểm định giả thuyết, mức ý nghĩa (alpha level) thường được đặt ở mức bao nhiêu?
A. 0.01
B. 0.05
C. 0.10
D. Bất kỳ giá trị nào tùy ý
25. Phương pháp nào sau đây thường được sử dụng để đánh giá sự phù hợp của một mô hình thống kê với dữ liệu?
A. Độ lệch chuẩn
B. Hệ số tương quan
C. Kiểm định Chi-bình phương
D. Giá trị trung bình
26. Trong thống kê, `mode` (mốt) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu
C. Giá trị nằm giữa của tập dữ liệu đã được sắp xếp
D. Tổng của tất cả các giá trị chia cho số lượng giá trị
27. Trong phân tích độ tin cậy (reliability analysis), hệ số Cronbach`s alpha đo lường điều gì?
A. Mức độ phù hợp của mô hình hồi quy
B. Tính nhất quán nội tại của một thang đo
C. Mức độ tương quan giữa hai biến
D. Mức độ phân tán của dữ liệu
28. Khi nào thì nên sử dụng kiểm định Wilcoxon signed-rank test?
A. Để so sánh trung bình của hai mẫu độc lập khi dữ liệu tuân theo phân phối chuẩn
B. Để so sánh trung bình của hai mẫu phụ thuộc khi dữ liệu tuân theo phân phối chuẩn
C. Để so sánh trung vị của hai mẫu độc lập khi dữ liệu không tuân theo phân phối chuẩn
D. Để so sánh trung vị của hai mẫu phụ thuộc khi dữ liệu không tuân theo phân phối chuẩn
29. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh trung bình
B. Mức độ phân tán của dữ liệu xung quanh trung bình
C. Giá trị lớn nhất trong tập dữ liệu
D. Giá trị trung bình của tập dữ liệu
30. Phương pháp nào sau đây giúp xác định mối quan hệ nhân quả giữa các biến?
A. Phân tích tương quan
B. Phân tích hồi quy
C. Thí nghiệm có kiểm soát (controlled experiment)
D. Quan sát