1. Trong phân tích dữ liệu bảng (panel data), tác động cố định (fixed effects) đề cập đến điều gì?
A. Tác động không đổi theo thời gian và không đổi giữa các đơn vị
B. Tác động thay đổi theo thời gian nhưng không đổi giữa các đơn vị
C. Tác động không đổi theo thời gian nhưng khác nhau giữa các đơn vị
D. Tác động thay đổi theo thời gian và khác nhau giữa các đơn vị
2. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi cỡ mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi dữ liệu không tuân theo phân phối chuẩn.
D. Khi cần tính toán khoảng tin cậy.
3. Trong thống kê, `phân phối chuẩn` (normal distribution) còn được gọi là gì?
A. Phân phối Poisson.
B. Phân phối nhị thức.
C. Phân phối Gaussian.
D. Phân phối Chi-square.
4. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ phân tán của dữ liệu
B. Mức độ liên kết tuyến tính giữa hai biến định lượng
C. Sự khác biệt giữa trung bình của hai nhóm
D. Mức độ phù hợp của mô hình hồi quy
5. Trong phân tích độ tin cậy (reliability analysis), hệ số Cronbach`s Alpha được sử dụng để đánh giá điều gì?
A. Tính giá trị của thang đo.
B. Tính ổn định của thang đo theo thời gian.
C. Tính nhất quán nội tại của thang đo.
D. Tính tương đương giữa các phiên bản của thang đo.
6. Khi nào nên sử dụng kiểm định t (t-test) cho hai mẫu độc lập?
A. Khi so sánh trung bình của hai mẫu phụ thuộc
B. Khi so sánh phương sai của hai mẫu độc lập
C. Khi so sánh trung bình của hai mẫu độc lập
D. Khi phân tích mối quan hệ giữa hai biến định tính
7. Trong phân tích hồi quy logistic, biến phụ thuộc có đặc điểm gì?
A. Là biến định lượng liên tục.
B. Là biến định tính có hai giá trị (binary).
C. Là biến định tính có nhiều hơn hai giá trị.
D. Là biến thứ bậc (ordinal).
8. Phương pháp nào sau đây được sử dụng để giảm số lượng biến trong một tập dữ liệu lớn trong khi vẫn giữ lại phần lớn thông tin?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Phân tích thành phần chính (Principal Component Analysis)
D. Kiểm định Chi-square
9. Trong thống kê mô tả, đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Phương sai
C. Mốt
D. Giá trị trung bình
10. Trong phân tích đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến điều gì?
A. Mối tương quan cao giữa các biến độc lập.
B. Mối tương quan cao giữa biến độc lập và biến phụ thuộc.
C. Sự không tuyến tính trong mối quan hệ giữa các biến.
D. Sự vi phạm giả định về phân phối chuẩn của sai số.
11. Khi nào nên sử dụng kiểm định Kruskal-Wallis?
A. Để so sánh trung bình của hai nhóm độc lập.
B. Để so sánh trung bình của nhiều hơn hai nhóm độc lập khi dữ liệu không tuân theo phân phối chuẩn.
C. Để so sánh phương sai của nhiều nhóm.
D. Để kiểm tra mối quan hệ giữa hai biến định tính.
12. Trong lý thuyết mẫu, `lỗi lấy mẫu` (sampling error) phát sinh do đâu?
A. Do sai sót trong quá trình nhập liệu.
B. Do sự khác biệt tự nhiên giữa mẫu và tổng thể.
C. Do việc sử dụng phương pháp thống kê không phù hợp.
D. Do người nghiên cứu có định kiến chủ quan.
13. Ý nghĩa của giá trị p (p-value) trong kiểm định giả thuyết là gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng
B. Xác suất chấp nhận giả thuyết null khi nó sai
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng
D. Xác suất giả thuyết null là đúng
14. Phân tích hồi quy tuyến tính được sử dụng để làm gì?
A. Mô tả đặc điểm của một biến số
B. Ước lượng mối quan hệ giữa các biến số
C. So sánh trung bình của hai nhóm
D. Đo lường mức độ phân tán của dữ liệu
15. Mục đích chính của việc `chuẩn hóa dữ liệu` (data normalization) là gì?
A. Loại bỏ các giá trị ngoại lệ.
B. Chuyển đổi dữ liệu về cùng một thang đo.
C. Đảm bảo dữ liệu tuân theo phân phối chuẩn.
D. Tăng cường tính bảo mật của dữ liệu.
16. Trong phân tích dữ liệu thứ cấp (secondary data analysis), điều gì quan trọng nhất cần xem xét?
A. Tính chính xác và độ tin cậy của nguồn dữ liệu.
B. Sự phù hợp của phương pháp thống kê được sử dụng.
C. Kích thước mẫu của dữ liệu.
D. Mục đích ban đầu của việc thu thập dữ liệu.
17. Trong phân tích phương sai (ANOVA), yếu tố (factor) là gì?
A. Biến phụ thuộc
B. Biến độc lập định tính
C. Biến độc lập định lượng
D. Sai số ngẫu nhiên
18. Ý nghĩa của `khoảng tin cậy` (confidence interval) là gì?
A. Xác suất mà tham số tổng thể nằm trong khoảng ước lượng.
B. Một khoảng giá trị mà chúng ta tin rằng tham số tổng thể nằm trong đó với một mức độ tin cậy nhất định.
C. Sai số chuẩn của ước lượng.
D. Mức ý nghĩa của kiểm định giả thuyết.
19. Khi nào thì việc sử dụng phương pháp bootstrapping là phù hợp?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi cỡ mẫu rất lớn.
C. Khi không thể ước tính được phân phối của thống kê.
D. Khi muốn giảm kích thước mẫu.
20. Điều gì xảy ra với sai số chuẩn của trung bình mẫu khi kích thước mẫu tăng lên?
A. Sai số chuẩn tăng lên.
B. Sai số chuẩn giảm xuống.
C. Sai số chuẩn không đổi.
D. Không thể xác định được sự thay đổi của sai số chuẩn.
21. Khi nào nên sử dụng kiểm định Chi-square?
A. Khi so sánh trung bình của hai nhóm độc lập
B. Khi phân tích mối quan hệ giữa hai biến định lượng
C. Khi phân tích mối quan hệ giữa hai biến định tính
D. Khi ước lượng mối quan hệ tuyến tính giữa các biến
22. Trong phân tích hồi quy, hệ số chặn (intercept) thể hiện điều gì?
A. Mức thay đổi của biến phụ thuộc khi biến độc lập tăng một đơn vị.
B. Giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
C. Mức độ phù hợp của mô hình hồi quy.
D. Sai số chuẩn của các hệ số hồi quy.
23. Khi nào nên sử dụng phân tích cụm (cluster analysis)?
A. Khi muốn dự đoán giá trị của một biến dựa trên các biến khác.
B. Khi muốn phân nhóm các đối tượng dựa trên các đặc điểm tương đồng.
C. Khi muốn kiểm tra mối quan hệ nhân quả giữa các biến.
D. Khi muốn giảm số lượng biến trong một tập dữ liệu.
24. Trong phân tích đường dẫn (path analysis), mục đích chính là gì?
A. Xác định các biến tiềm ẩn (latent variables).
B. Kiểm tra mối quan hệ nhân quả giữa các biến.
C. Giảm số lượng biến trong mô hình.
D. Đánh giá độ tin cậy của thang đo.
25. Khi nào thì phù hợp nhất để sử dụng kiểm định Mann-Whitney U?
A. Để so sánh trung bình của hai mẫu liên quan khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh trung bình của hai mẫu độc lập khi dữ liệu không tuân theo phân phối chuẩn.
C. Để so sánh phương sai của hai mẫu độc lập.
D. Để kiểm tra mối quan hệ giữa hai biến định tính.
26. Trong phân tích dữ liệu sống còn (survival analysis), hàm sống còn (survival function) thể hiện điều gì?
A. Thời gian trung bình mà một đối tượng sống sót.
B. Xác suất một đối tượng sống sót ít nhất đến một thời điểm nhất định.
C. Tỷ lệ các đối tượng chết trong một khoảng thời gian nhất định.
D. Nguy cơ tử vong của một đối tượng tại một thời điểm nhất định.
27. Trong phân tích bảng chéo (cross-tabulation), số lượng kỳ vọng (expected count) được tính như thế nào?
A. (Tổng hàng * Tổng cột) / Tổng số quan sát
B. (Tổng hàng + Tổng cột) / Tổng số quan sát
C. (Tổng số quan sát * Tổng hàng) / Tổng cột
D. (Tổng số quan sát + Tổng hàng) / Tổng cột
28. Sai số loại I (Type I error) trong kiểm định giả thuyết là gì?
A. Bác bỏ giả thuyết null khi nó đúng
B. Chấp nhận giả thuyết null khi nó đúng
C. Bác bỏ giả thuyết null khi nó sai
D. Chấp nhận giả thuyết null khi nó sai
29. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Phân tích hồi quy.
B. Phân tích phương sai.
C. Ước lượng bằng giá trị trung bình (mean imputation).
D. Phân tích thành phần chính.
30. Phương pháp lấy mẫu nào đảm bảo mọi thành viên của tổng thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu thuận tiện (Convenience sampling)
B. Lấy mẫu phân tầng (Stratified sampling)
C. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling)
D. Lấy mẫu theo mục đích (Purposive sampling)