1. Trong khai phá dữ liệu, `Precision` và `Recall` là gì?
A. Các độ đo để đánh giá hiệu suất của mô hình phân lớp
B. Các phương pháp tiền xử lý dữ liệu
C. Các thuật toán phân cụm
D. Các kỹ thuật giảm chiều dữ liệu
2. Trong ngữ cảnh của khai phá dữ liệu, `overfitting` đề cập đến điều gì?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình quá đơn giản để nắm bắt các mẫu trong dữ liệu
D. Mô hình cần nhiều dữ liệu hơn để huấn luyện
3. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?
A. Dự đoán nguy cơ mắc bệnh dựa trên tiền sử bệnh án
B. Tối ưu hóa quy trình sản xuất
C. Phân tích thị trường chứng khoán
D. Quản lý chuỗi cung ứng
4. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng?
A. Phân tích hồi quy
B. Giảm chiều dữ liệu
C. Phân cụm
D. Phân lớp
5. Trong khai phá dữ liệu, mục đích của việc sử dụng `cross-validation` là gì?
A. Để tăng kích thước của tập dữ liệu
B. Để đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy
C. Để giảm số lượng chiều của dữ liệu
D. Để loại bỏ các giá trị ngoại lệ
6. Trong khai phá dữ liệu, `entropy` thường được sử dụng để đo lường điều gì?
A. Độ chính xác của mô hình
B. Độ không chắc chắn hoặc ngẫu nhiên của một biến
C. Mức độ liên quan giữa các biến
D. Kích thước của tập dữ liệu
7. Kỹ thuật nào sau đây được sử dụng để nhóm các đối tượng tương tự nhau thành các cụm?
A. Phân tích hồi quy
B. Phân tích tương quan
C. Phân cụm
D. Phân lớp
8. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu số thành một phạm vi cụ thể, chẳng hạn như [0, 1]?
A. Chuẩn hóa (Normalization)
B. Rời rạc hóa (Discretization)
C. Lựa chọn thuộc tính (Feature Selection)
D. Giảm chiều (Dimensionality Reduction)
9. Trong khai phá dữ liệu, thuật ngữ `recall` thường được liên kết với:
A. Số lượng kết quả dương tính thực tế được dự đoán đúng
B. Số lượng kết quả âm tính thực tế được dự đoán đúng
C. Tổng số kết quả dự đoán là dương tính
D. Tổng số kết quả thực tế là dương tính
10. Kỹ thuật nào sau đây có thể được sử dụng để giảm số lượng thuộc tính trong tập dữ liệu bằng cách tạo ra các thuộc tính mới là tổ hợp tuyến tính của các thuộc tính ban đầu?
A. Phân tích thành phần chính (PCA)
B. Lựa chọn thuộc tính (Feature Selection)
C. Rời rạc hóa (Discretization)
D. Chuẩn hóa (Normalization)
11. Thuật toán nào sau đây thường được sử dụng để tìm các cụm có hình dạng bất kỳ trong không gian dữ liệu?
A. K-means
B. Hierarchical Clustering
C. DBSCAN
D. Apriori
12. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu trong quá trình tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu
B. Điền giá trị thiếu
C. Giảm chiều dữ liệu
D. Rời rạc hóa dữ liệu
13. Kỹ thuật nào sau đây được sử dụng để khám phá các mẫu tuần tự trong dữ liệu chuỗi thời gian?
A. Phân tích hồi quy
B. Phân tích chuỗi thời gian
C. Phân tích luật kết hợp
D. Phân tích cụm
14. Trong khai phá dữ liệu, thuật ngữ `curse of dimensionality` đề cập đến vấn đề gì?
A. Sự gia tăng độ phức tạp tính toán khi số lượng chiều tăng lên
B. Sự giảm hiệu suất của mô hình khi số lượng chiều tăng lên
C. Sự khó khăn trong việc trực quan hóa dữ liệu khi số lượng chiều tăng lên
D. Tất cả các đáp án trên
15. Độ đo nào sau đây thường được sử dụng để đánh giá chất lượng của các quy tắc kết hợp?
A. Support
B. Confidence
C. Lift
D. Cả ba đáp án trên
16. Trong khai phá dữ liệu, độ đo nào thường được sử dụng để đánh giá hiệu suất của một mô hình phân lớp?
A. Độ chính xác (Accuracy)
B. Độ lệch (Bias)
C. Phương sai (Variance)
D. Độ phức tạp (Complexity)
17. Phương pháp nào sau đây được sử dụng để xây dựng mô hình dự đoán dựa trên một tập hợp các cây quyết định?
A. Support Vector Machine
B. Random Forest
C. K-nearest neighbors
D. Linear Regression
18. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các mối quan hệ giữa các biến trong một tập dữ liệu?
A. Phân tích hồi quy
B. Phân tích tương quan
C. Phân cụm
D. Phân lớp
19. Mục tiêu chính của việc sử dụng kỹ thuật `rời rạc hóa` (discretization) trong tiền xử lý dữ liệu là gì?
A. Chuyển đổi dữ liệu liên tục thành dữ liệu rời rạc
B. Giảm kích thước của dữ liệu
C. Tăng độ chính xác của mô hình
D. Loại bỏ các giá trị ngoại lệ
20. Trong khai phá dữ liệu, mục đích của việc sử dụng `feature selection` là gì?
A. Để tăng số lượng chiều của dữ liệu
B. Để chọn ra các thuộc tính quan trọng nhất
C. Để giảm kích thước của dữ liệu
D. Để loại bỏ các giá trị ngoại lệ
21. Kỹ thuật nào sau đây được sử dụng để xác định các giá trị ngoại lệ trong một tập dữ liệu?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Phát hiện ngoại lệ
D. Phân tích thành phần chính
22. Phương pháp nào sau đây thuộc về học không giám sát?
A. Cây quyết định
B. Hồi quy tuyến tính
C. Mạng nơ-ron
D. Phân cụm K-means
23. Trong khai phá dữ liệu, `Gini index` thường được sử dụng trong thuật toán nào?
A. K-means
B. DBSCAN
C. Decision Tree
D. Linear Regression
24. Phương pháp nào sau đây là một kỹ thuật phân cụm phân cấp?
A. K-means
B. DBSCAN
C. Agglomerative clustering
D. Support Vector Machine
25. Trong khai phá dữ liệu, phương pháp nào sau đây được sử dụng để dự đoán giá trị của một biến số liên tục?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
26. Trong khai phá dữ liệu, thuật ngữ `support vector` liên quan đến thuật toán nào?
A. K-means
B. Decision Tree
C. Support Vector Machine (SVM)
D. Apriori
27. Trong khai phá dữ liệu, `lift` trong khai thác luật kết hợp được định nghĩa là gì?
A. Xác suất của việc tìm thấy một mục trong tập dữ liệu
B. Độ tin cậy của một luật
C. Tỷ lệ giữa độ tin cậy của một luật và xác suất của phần hệ quả
D. Số lượng giao dịch chứa cả phần tiền đề và phần hệ quả
28. Thuật toán nào sau đây thường được sử dụng để tìm các tập phổ biến trong phân tích kết hợp?
A. Apriori
B. K-nearest neighbors
C. Principal Component Analysis
D. Linear Regression
29. Đâu là một thách thức phổ biến trong khai phá dữ liệu?
A. Dữ liệu nhiễu và không đầy đủ
B. Thiếu thuật toán phù hợp
C. Chi phí phần cứng cao
D. Thiếu nhân lực có kỹ năng
30. Trong khai phá dữ liệu, mục tiêu của việc sử dụng thuật toán `K-nearest neighbors` (KNN) là gì?
A. Phân cụm dữ liệu
B. Phân loại hoặc hồi quy
C. Tìm luật kết hợp
D. Giảm chiều dữ liệu