1. Trong phân tích chuỗi thời gian, thành phần nào sau đây mô tả xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (Seasonality)
B. Tính chu kỳ (Cyclicality)
C. Xu hướng (Trend)
D. Tính ngẫu nhiên (Irregularity)
2. Phương pháp nào sau đây thường được sử dụng để xác định số lượng cụm (clusters) tối ưu trong phân tích cụm (cluster analysis)?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy tuyến tính
C. Phương pháp Elbow (Elbow method)
D. Kiểm định chi bình phương
3. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh phương sai giữa hai quần thể
B. So sánh trung bình giữa hai quần thể
C. So sánh trung bình giữa nhiều hơn hai quần thể
D. Đo lường mối quan hệ giữa hai biến định lượng
4. Trong thiết kế thử nghiệm, `biến gây nhiễu` (confounding variable) là gì?
A. Biến được nhà nghiên cứu chủ động thay đổi
B. Biến có ảnh hưởng đến cả biến độc lập và biến phụ thuộc, làm sai lệch kết quả
C. Biến chỉ ảnh hưởng đến biến phụ thuộc
D. Biến không liên quan đến kết quả nghiên cứu
5. Trong thống kê, thuật ngữ `bậc tự do` (degrees of freedom) thường liên quan đến điều gì?
A. Số lượng quan sát trong một mẫu
B. Số lượng biến trong một mô hình
C. Số lượng giá trị độc lập có thể thay đổi trong một phép tính thống kê
D. Mức ý nghĩa thống kê
6. Khi nào nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình của hai nhóm?
A. Khi kích thước mẫu lớn (n > 30)
B. Khi phương sai của quần thể đã biết
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của quần thể chưa biết
D. Khi dữ liệu tuân theo phân phối chuẩn
7. Trong kiểm định chi bình phương (Chi-square test), kiểm định tính độc lập (test of independence) được sử dụng để làm gì?
A. Kiểm tra xem một mẫu có tuân theo một phân phối lý thuyết hay không
B. Kiểm tra xem hai biến định tính có liên quan đến nhau hay không
C. Kiểm tra xem trung bình của hai quần thể có bằng nhau hay không
D. Kiểm tra xem phương sai của hai quần thể có bằng nhau hay không
8. Khi thực hiện kiểm định giả thuyết, sai lầm loại I xảy ra khi nào?
A. Bác bỏ giả thuyết H0 khi H0 thực sự đúng
B. Chấp nhận giả thuyết H0 khi H0 thực sự sai
C. Bác bỏ giả thuyết H0 khi H0 thực sự sai
D. Chấp nhận giả thuyết H0 khi H0 thực sự đúng
9. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn
B. Phân phối Poisson
C. Phân phối nhị thức
D. Phân phối đều
10. Trong thống kê, thuật ngữ `ngoại lệ` (outlier) dùng để chỉ điều gì?
A. Giá trị trung bình của dữ liệu
B. Giá trị xuất hiện nhiều nhất trong dữ liệu
C. Giá trị nằm rất xa so với phần lớn các giá trị khác trong dữ liệu
D. Giá trị nằm ở giữa của dữ liệu
11. Trong thống kê suy diễn, khoảng tin cậy được sử dụng để làm gì?
A. Ước lượng một tham số của quần thể với một mức độ tin cậy nhất định
B. Kiểm định giả thuyết về một tham số của quần thể
C. Mô tả các đặc điểm của mẫu
D. Tính toán độ lệch chuẩn của quần thể
12. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết H0 là đúng
B. Xác suất mắc sai lầm loại II
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết H0 là đúng
D. Xác suất bác bỏ giả thuyết H0
13. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập
B. Mối quan hệ phi tuyến tính giữa các biến độc lập
C. Mối quan hệ tuyến tính mạnh mẽ giữa biến độc lập và biến phụ thuộc
D. Sự thiếu tương quan giữa các biến độc lập
14. Trong lý thuyết Bayes, công thức Bayes được sử dụng để tính xác suất gì?
A. Xác suất tiên nghiệm (prior probability)
B. Xác suất hậu nghiệm (posterior probability)
C. Xác suất biên (marginal probability)
D. Xác suất правдоподобия (likelihood)
15. Mục đích của việc chuẩn hóa dữ liệu (ví dụ: z-score standardization) là gì?
A. Loại bỏ các giá trị ngoại lệ
B. Chuyển đổi dữ liệu về cùng một đơn vị đo lường và phân phối chuẩn
C. Đảm bảo dữ liệu tuân theo phân phối chuẩn
D. Tăng kích thước mẫu
16. Loại biểu đồ nào phù hợp nhất để so sánh phân phối của một biến số giữa hai nhóm khác nhau?
A. Biểu đồ tròn
B. Biểu đồ tán xạ
C. Biểu đồ hộp (boxplot)
D. Biểu đồ đường
17. Biểu đồ nào sau đây thích hợp nhất để thể hiện phân phối tần số của một biến định lượng liên tục?
A. Biểu đồ tròn
B. Biểu đồ cột
C. Biểu đồ hộp
D. Biểu đồ tần suất (histogram)
18. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ quan hệ phi tuyến tính giữa hai biến
B. Mức độ quan hệ nhân quả giữa hai biến
C. Mức độ quan hệ tuyến tính giữa hai biến
D. Mức độ biến động của một biến
19. Khi nào nên sử dụng trung vị (median) thay vì trung bình (mean) để đo lường xu hướng trung tâm của dữ liệu?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi có các giá trị ngoại lệ trong dữ liệu
C. Khi kích thước mẫu lớn
D. Khi dữ liệu có tính đối xứng
20. Độ lệch chuẩn của trung bình mẫu (standard error of the mean) được tính như thế nào?
A. Độ lệch chuẩn của quần thể chia cho kích thước mẫu
B. Độ lệch chuẩn của quần thể nhân với kích thước mẫu
C. Độ lệch chuẩn của quần thể chia cho căn bậc hai của kích thước mẫu
D. Độ lệch chuẩn của quần thể trừ đi kích thước mẫu
21. Trong phân tích hồi quy tuyến tính, R-squared (hệ số xác định) cho biết điều gì?
A. Độ mạnh của mối quan hệ nhân quả giữa các biến
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập
C. Mức độ ý nghĩa thống kê của các biến độc lập
D. Sai số chuẩn của ước lượng
22. Trong phân tích tồn dư (residual analysis) của mô hình hồi quy, mục đích chính là gì?
A. Đánh giá độ chính xác của các hệ số hồi quy
B. Kiểm tra các giả định của mô hình hồi quy
C. Dự đoán giá trị của biến phụ thuộc
D. Xác định các biến độc lập quan trọng nhất
23. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của quần thể có cơ hội được chọn bằng nhau?
A. Lấy mẫu phân tầng
B. Lấy mẫu cụm
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu thuận tiện
24. Phương pháp nào sau đây được sử dụng để giảm số lượng biến trong một tập dữ liệu lớn mà vẫn giữ lại thông tin quan trọng nhất?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy tuyến tính
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Kiểm định chi bình phương
25. Phương pháp nào sau đây được sử dụng để ước lượng các tham số của mô hình hồi quy logistic?
A. Phương pháp bình phương tối thiểu (Ordinary Least Squares - OLS)
B. Phương pháp правдоподобия cực đại (Maximum Likelihood Estimation - MLE)
C. Phương pháp Moment
D. Phương pháp Bayes
26. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc có thang đo thứ bậc
D. Khi phương sai của các nhóm bằng nhau
27. Trong thống kê mô tả, đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu so với giá trị trung bình?
A. Trung vị
B. Giá trị lớn nhất
C. Độ lệch chuẩn
D. Mốt
28. Trong thống kê Bayes, xác suất tiên nghiệm (prior probability) đại diện cho điều gì?
A. Xác suất của một sự kiện sau khi đã xem xét các bằng chứng mới
B. Xác suất của một sự kiện trước khi xem xét bất kỳ bằng chứng nào
C. Xác suất của bằng chứng
D. Xác suất kết hợp của sự kiện và bằng chứng
29. Kiểm định Kolmogorov-Smirnov được sử dụng để làm gì?
A. So sánh trung bình của hai mẫu độc lập
B. So sánh phương sai của hai mẫu độc lập
C. Kiểm tra xem một mẫu có tuân theo một phân phối xác suất cụ thể hay không
D. Đo lường mối quan hệ giữa hai biến định lượng
30. Phương pháp nào sau đây được sử dụng để đánh giá độ tin cậy nội tại (internal consistency reliability) của một thang đo (scale)?
A. Độ tin cậy kiểm tra lại (test-retest reliability)
B. Độ tin cậy giữa các thẩm định viên (inter-rater reliability)
C. Hệ số Cronbach`s alpha
D. Độ tin cậy song song (parallel-forms reliability)