1. Trong khai phá dữ liệu, mục tiêu chính của việc trực quan hóa dữ liệu là gì?
A. Tăng độ chính xác của mô hình
B. Giảm kích thước của dữ liệu
C. Giúp con người hiểu rõ hơn về dữ liệu và các mẫu trong dữ liệu
D. Tự động hóa quá trình khai phá dữ liệu
2. Trong khai phá dữ liệu, `confidence` của một luật kết hợp được định nghĩa là gì?
A. Độ tin cậy của luật
B. Tần suất xuất hiện của các mục trong luật trong tập dữ liệu
C. Mức độ quan tâm của luật
D. Độ chính xác của luật
3. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để dự đoán giá trị liên tục?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
4. Trong khai phá dữ liệu, phương pháp nào sau đây được sử dụng để đánh giá mức độ phù hợp của một mô hình hồi quy?
A. Độ chính xác (Accuracy)
B. F1-score
C. R-squared
D. Recall
5. Trong khai phá dữ liệu, phương pháp nào giúp tìm ra các sản phẩm thường được mua cùng nhau?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
6. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để dự đoán giá trị của một biến mục tiêu dựa trên một hoặc nhiều biến đầu vào?
A. Phân tích thành phần chính (PCA)
B. Phân tích hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
7. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để dự đoán giá trị rời rạc?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
8. Kỹ thuật nào sau đây được sử dụng để giảm nhiễu trong dữ liệu số bằng cách thay thế các giá trị bằng giá trị trung bình của các điểm lân cận?
A. Chuẩn hóa (Normalization)
B. Làm mịn (Smoothing)
C. Rời rạc hóa (Discretization)
D. Mã hóa one-hot (One-hot encoding)
9. Trong khai phá dữ liệu, độ đo `precision` (độ chính xác) được định nghĩa như thế nào?
A. Tỷ lệ các trường hợp dương tính thực tế được dự đoán đúng
B. Tỷ lệ các trường hợp được dự đoán là dương tính mà thực sự là dương tính
C. Tỷ lệ các trường hợp âm tính thực tế được dự đoán đúng
D. Tỷ lệ các trường hợp được dự đoán là âm tính mà thực sự là âm tính
10. Trong khai phá dữ liệu, `lift` của một luật kết hợp được định nghĩa là gì?
A. Độ tin cậy của luật
B. Tần suất xuất hiện của các mục trong luật trong tập dữ liệu
C. Mức độ quan tâm của luật
D. Độ chính xác của luật
11. Phương pháp nào trong khai phá dữ liệu được sử dụng để chia một tập dữ liệu thành các nhóm (cluster) sao cho các đối tượng trong cùng một nhóm tương đồng với nhau hơn so với các đối tượng thuộc các nhóm khác?
A. Phân tích chuỗi thời gian
B. Phân tích hồi quy
C. Phân cụm
D. Phân loại
12. Trong quá trình xây dựng mô hình khai phá dữ liệu, bước nào sau đây thường được thực hiện sau khi thu thập và làm sạch dữ liệu?
A. Đánh giá mô hình
B. Triển khai mô hình
C. Phân tích và tiền xử lý dữ liệu
D. Chọn thuật toán khai phá dữ liệu
13. Phương pháp nào sau đây giúp đánh giá hiệu quả của một mô hình phân loại trong khai phá dữ liệu khi dữ liệu có sự mất cân bằng giữa các lớp?
A. Độ chính xác (Accuracy)
B. F1-score
C. Độ lệch chuẩn (Standard deviation)
D. Giá trị trung bình (Mean)
14. Trong khai phá dữ liệu, mục tiêu của việc sử dụng kỹ thuật `association rule mining` (khai thác luật kết hợp) là gì?
A. Dự đoán giá trị của một biến mục tiêu
B. Phân nhóm các đối tượng tương tự
C. Tìm các mối quan hệ giữa các biến
D. Giảm số lượng chiều dữ liệu
15. Trong khai phá dữ liệu, thuật toán nào sau đây là một thuật toán phân loại dựa trên cây quyết định?
A. K-means
B. Support Vector Machine (SVM)
C. Decision Tree
D. Linear Regression
16. Trong khai phá dữ liệu, phương pháp nào sau đây được sử dụng để tìm ra các mẫu bất thường hoặc gian lận trong dữ liệu?
A. Phân loại
B. Phân tích ngoại lệ (Outlier analysis)
C. Phân cụm
D. Khai thác luật kết hợp
17. Trong khai phá dữ liệu, phương pháp nào giúp xác định các nhóm khách hàng có hành vi mua hàng tương tự nhau?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
18. Kỹ thuật nào sau đây được sử dụng để tìm các mẫu tuần tự (sequential patterns) trong dữ liệu, ví dụ như hành vi mua sắm của khách hàng theo thời gian?
A. Phân tích hồi quy
B. Phân cụm
C. Phân tích chuỗi thời gian
D. Khai thác luật kết hợp
19. Trong khai phá dữ liệu, `cross-validation` (kiểm định chéo) được sử dụng để làm gì?
A. Giảm kích thước của dữ liệu
B. Đánh giá hiệu suất của mô hình trên dữ liệu mới
C. Tìm các đặc trưng quan trọng nhất
D. Làm sạch dữ liệu
20. Trong khai phá dữ liệu, thuật ngữ `curse of dimensionality` (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?
A. Sự gia tăng độ phức tạp tính toán và giảm hiệu suất của mô hình khi số lượng chiều dữ liệu tăng lên
B. Sự khó khăn trong việc thu thập dữ liệu chất lượng cao
C. Sự thiếu hụt các thuật toán khai phá dữ liệu phù hợp
D. Sự khó khăn trong việc trực quan hóa dữ liệu nhiều chiều
21. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu rời rạc (categorical data) trong khai phá dữ liệu?
A. Chuẩn hóa (Normalization)
B. Rời rạc hóa (Discretization)
C. Mã hóa one-hot (One-hot encoding)
D. Phân tích hồi quy
22. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ giữa các biến trong một tập dữ liệu, thường được biểu diễn dưới dạng các quy tắc `nếu...thì...`?
A. Phân tích hồi quy
B. Phân cụm
C. Khai thác luật kết hợp
D. Phân loại
23. Trong khai phá dữ liệu, thuật ngữ `outlier` (ngoại lệ) đề cập đến điều gì?
A. Các điểm dữ liệu bị thiếu
B. Các điểm dữ liệu có giá trị bất thường so với phần lớn dữ liệu
C. Các điểm dữ liệu được dự đoán sai bởi mô hình
D. Các điểm dữ liệu được sử dụng để huấn luyện mô hình
24. Trong bối cảnh khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến vấn đề gì?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình quá đơn giản để nắm bắt được các mẫu trong dữ liệu
D. Dữ liệu huấn luyện chứa quá nhiều nhiễu
25. Đâu là một thách thức lớn trong quá trình tiền xử lý dữ liệu cho khai phá dữ liệu?
A. Chọn thuật toán khai phá dữ liệu phù hợp
B. Xử lý dữ liệu bị thiếu và nhiễu
C. Đánh giá hiệu suất của mô hình
D. Trực quan hóa kết quả
26. Kỹ thuật nào trong khai phá dữ liệu giúp giảm số lượng chiều dữ liệu trong khi vẫn giữ lại được phần lớn thông tin quan trọng?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Phân tích tương quan
D. Phân tích chuỗi thời gian
27. Thuật toán nào sau đây thuộc loại thuật toán phân cụm phân cấp (hierarchical clustering)?
A. K-means
B. DBSCAN
C. Agglomerative clustering
D. Support Vector Machine (SVM)
28. Trong khai phá dữ liệu, `support` của một luật kết hợp được định nghĩa là gì?
A. Độ tin cậy của luật
B. Tần suất xuất hiện của các mục trong luật trong tập dữ liệu
C. Mức độ quan tâm của luật
D. Độ chính xác của luật
29. Trong khai phá dữ liệu, `feature selection` (lựa chọn đặc trưng) là quá trình:
A. Tạo ra các đặc trưng mới từ các đặc trưng hiện có
B. Chọn một tập con các đặc trưng quan trọng nhất từ tập đặc trưng ban đầu
C. Chuyển đổi các đặc trưng sang một không gian mới
D. Chuẩn hóa các đặc trưng
30. Trong khai phá dữ liệu, độ đo `recall` (độ phủ) được định nghĩa như thế nào?
A. Tỷ lệ các trường hợp dương tính thực tế được dự đoán đúng
B. Tỷ lệ các trường hợp được dự đoán là dương tính mà thực sự là dương tính
C. Tỷ lệ các trường hợp âm tính thực tế được dự đoán đúng
D. Tỷ lệ các trường hợp được dự đoán là âm tính mà thực sự là âm tính