1. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của quần thể có cơ hội được chọn như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu theo cụm
2. Trong thống kê, thuật ngữ `phân phối chuẩn` còn được gọi là gì?
A. Phân phối Poisson
B. Phân phối Bernoulli
C. Phân phối Gaussian
D. Phân phối nhị thức
3. Đại lượng nào sau đây không bị ảnh hưởng bởi các giá trị ngoại lệ (outliers)?
A. Giá trị trung bình (Mean)
B. Độ lệch chuẩn (Standard Deviation)
C. Trung vị (Median)
D. Phương sai (Variance)
4. Phương pháp nào sau đây được sử dụng để giảm số chiều của dữ liệu trong khi vẫn giữ lại các thông tin quan trọng nhất?
A. Phân tích hồi quy.
B. Phân tích phương sai.
C. Phân tích thành phần chính (Principal Component Analysis - PCA).
D. Kiểm định t.
5. Khi thực hiện kiểm định giả thuyết, nếu giá trị p nhỏ hơn mức ý nghĩa α, chúng ta nên làm gì?
A. Chấp nhận giả thuyết null.
B. Bác bỏ giả thuyết null.
C. Không đưa ra kết luận.
D. Tăng kích thước mẫu.
6. Khi nào nên sử dụng kiểm định t (t-test) Student?
A. Để so sánh phương sai của hai nhóm.
B. Để so sánh trung bình của hai nhóm khi kích thước mẫu nhỏ và độ lệch chuẩn của quần thể chưa biết.
C. Để kiểm tra sự độc lập giữa hai biến định tính.
D. Để phân tích mối quan hệ giữa nhiều biến.
7. Đường hồi quy tuyến tính được tìm bằng phương pháp nào?
A. Phương pháp bình phương tối thiểu (Ordinary Least Squares - OLS)
B. Phương pháp xác suất cực đại (Maximum Likelihood Estimation - MLE)
C. Phương pháp moment (Method of Moments)
D. Phương pháp Bayes
8. Trong phân tích hồi quy, hệ số R bình phương (R-squared) cho biết điều gì?
A. Độ dốc của đường hồi quy.
B. Mức độ phù hợp của mô hình hồi quy với dữ liệu, tức là tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi biến độc lập.
C. Sai số chuẩn của các hệ số hồi quy.
D. Giá trị trung bình của biến phụ thuộc.
9. Trong thống kê, thuật ngữ `phương sai` (variance) đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Giá trị nhỏ nhất trong tập dữ liệu.
10. Khi nào nên sử dụng phương pháp lấy mẫu phân tầng (stratified sampling)?
A. Khi muốn tiết kiệm chi phí và thời gian lấy mẫu.
B. Khi quần thể có các nhóm (strata) khác nhau và muốn đảm bảo mỗi nhóm được đại diện đầy đủ trong mẫu.
C. Khi không có thông tin về quần thể.
D. Khi muốn lấy mẫu một cách hoàn toàn ngẫu nhiên.
11. Trong phân tích chuỗi thời gian, phương pháp nào thường được sử dụng để làm mịn dữ liệu và loại bỏ nhiễu?
A. Hồi quy tuyến tính.
B. Trung bình trượt (Moving Average).
C. Phân tích phương sai (ANOVA).
D. Kiểm định Chi-bình phương.
12. Trong lý thuyết xác suất, quy tắc cộng xác suất áp dụng cho các sự kiện nào?
A. Các sự kiện độc lập
B. Các sự kiện xung khắc
C. Các sự kiện có điều kiện
D. Các sự kiện đồng thời
13. Trong thống kê, `giá trị ngoại lệ` (outlier) là gì?
A. Một giá trị xuất hiện thường xuyên nhất trong tập dữ liệu.
B. Một giá trị nằm gần giá trị trung bình của tập dữ liệu.
C. Một giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Một giá trị không hợp lệ trong tập dữ liệu.
14. Loại biểu đồ nào phù hợp nhất để thể hiện mối quan hệ giữa hai biến định lượng?
A. Biểu đồ cột (Bar chart)
B. Biểu đồ tròn (Pie chart)
C. Biểu đồ tán xạ (Scatter plot)
D. Biểu đồ hộp (Box plot)
15. Khi nào nên sử dụng kiểm định Wilcoxon signed-rank test?
A. Để so sánh trung bình của hai mẫu độc lập khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh trung bình của hai mẫu phụ thuộc khi dữ liệu tuân theo phân phối chuẩn.
C. Để so sánh trung vị của hai mẫu độc lập khi dữ liệu không tuân theo phân phối chuẩn.
D. Để so sánh trung vị của hai mẫu phụ thuộc khi dữ liệu không tuân theo phân phối chuẩn.
16. Trong thống kê, khái niệm nào sau đây mô tả sự bất đối xứng của phân phối dữ liệu?
A. Độ lệch (Skewness)
B. Độ nhọn (Kurtosis)
C. Phương sai (Variance)
D. Độ lệch chuẩn (Standard deviation)
17. Khi nào nên sử dụng biểu đồ hộp (boxplot) để trực quan hóa dữ liệu?
A. Khi muốn so sánh phân phối của nhiều tập dữ liệu.
B. Khi muốn thể hiện xu hướng theo thời gian.
C. Khi muốn thể hiện mối quan hệ giữa hai biến số liên tục.
D. Khi muốn thể hiện tỷ lệ phần trăm của các nhóm dữ liệu.
18. Trong phân tích hồi quy tuyến tính, ý nghĩa của hệ số chặn (intercept) là gì?
A. Giá trị của biến độc lập khi biến phụ thuộc bằng 0.
B. Giá trị trung bình của biến phụ thuộc.
C. Giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
D. Độ dốc của đường hồi quy.
19. Trong thống kê mô tả, đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Phương sai
C. Mốt
D. Giá trị trung bình
20. Khi nào nên sử dụng hồi quy logistic?
A. Khi biến phụ thuộc là biến định lượng liên tục.
B. Khi biến phụ thuộc là biến định tính có hai giá trị (nhị phân).
C. Khi biến phụ thuộc là biến định tính có nhiều hơn hai giá trị.
D. Khi muốn dự đoán giá trị thời gian.
21. Trong phân tích dữ liệu thời gian, thành phần nào sau đây thể hiện sự biến động ngẫu nhiên và không thể dự đoán được?
A. Xu hướng (Trend)
B. Tính mùa vụ (Seasonality)
C. Chu kỳ (Cycle)
D. Phần dư (Residual)
22. Trong thống kê, `độ tin cậy` (reliability) của một công cụ đo lường đề cập đến điều gì?
A. Khả năng đo lường chính xác những gì công cụ đó được thiết kế để đo lường.
B. Mức độ nhất quán của kết quả khi công cụ được sử dụng nhiều lần trên cùng một đối tượng.
C. Khả năng khái quát hóa kết quả từ mẫu sang quần thể.
D. Mức độ dễ dàng sử dụng của công cụ.
23. Trong kiểm định giả thuyết, giá trị p (p-value) thể hiện điều gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null khi nó sai.
C. Xác suất quan sát được kết quả kiểm định (hoặc kết quả khắc nghiệt hơn) nếu giả thuyết null là đúng.
D. Xác suất giả thuyết null là đúng.
24. Sai số loại I (Type I error) trong kiểm định giả thuyết là gì?
A. Chấp nhận giả thuyết null khi nó đúng.
B. Bác bỏ giả thuyết null khi nó sai.
C. Chấp nhận giả thuyết null khi nó sai.
D. Bác bỏ giả thuyết null khi nó đúng.
25. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh trung bình của hai nhóm.
B. Phân tích mối quan hệ giữa hai biến liên tục.
C. So sánh phương sai giữa nhiều nhóm để xác định xem có sự khác biệt đáng kể giữa các trung bình hay không.
D. Đo lường độ mạnh của mối quan hệ tuyến tính.
26. Khi nào nên sử dụng kiểm định Mann-Whitney U test?
A. Để so sánh trung bình của hai mẫu độc lập khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh trung vị của hai mẫu độc lập khi dữ liệu không tuân theo phân phối chuẩn.
C. Để so sánh trung bình của hai mẫu phụ thuộc khi dữ liệu tuân theo phân phối chuẩn.
D. Để so sánh trung vị của hai mẫu phụ thuộc khi dữ liệu không tuân theo phân phối chuẩn.
27. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là α (alpha) đại diện cho điều gì?
A. Xác suất chấp nhận giả thuyết null khi nó đúng.
B. Xác suất mắc lỗi loại II.
C. Xác suất bác bỏ giả thuyết null khi nó đúng (xác suất mắc lỗi loại I).
D. Xác suất bác bỏ giả thuyết null khi nó sai.
28. Khi nào nên sử dụng kiểm định Chi-bình phương (Chi-square test)?
A. Để so sánh trung bình của hai nhóm độc lập.
B. Để phân tích phương sai giữa nhiều nhóm.
C. Để kiểm tra sự độc lập giữa hai biến định tính.
D. Để đo lường mối quan hệ tuyến tính giữa hai biến định lượng.
29. Trong thống kê suy diễn, khoảng tin cậy (confidence interval) là gì?
A. Một giá trị duy nhất ước tính cho tham số của quần thể.
B. Một khoảng giá trị mà tham số của quần thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Xác suất mà tham số của quần thể nằm trong một khoảng giá trị cụ thể.
D. Sai số chuẩn của ước lượng.
30. Hệ số tương quan Pearson đo lường điều gì?
A. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định tính.
B. Độ mạnh và hướng của mối quan hệ phi tuyến tính giữa hai biến định lượng.
C. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
D. Mức độ ảnh hưởng của một biến lên biến khác.