1. Trong khai phá dữ liệu, `precision` và `recall` là các độ đo hiệu suất được sử dụng trong bài toán nào?
A. Phân cụm
B. Phân loại
C. Hồi quy
D. Giảm chiều dữ liệu
2. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để giảm số lượng biến đầu vào trong mô hình dự đoán?
A. Feature selection
B. Data normalization
C. Data cleaning
D. Data integration
3. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để khám phá các mối quan hệ giữa các mục trong một tập dữ liệu giao dịch?
A. Phân tích thành phần chính
B. Phân tích kết hợp
C. Phân tích chuỗi thời gian
D. Phân tích hồi quy
4. Trong khai phá dữ liệu, ROC curve (Receiver Operating Characteristic curve) được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình hồi quy
B. Mô hình phân cụm
C. Mô hình phân loại
D. Mô hình giảm chiều dữ liệu
5. Trong khai phá dữ liệu, `entropy` và `information gain` được sử dụng trong thuật toán nào?
A. K-means
B. Support Vector Machine
C. Decision Tree
D. Linear Regression
6. Trong khai phá dữ liệu, mục đích chính của việc làm sạch dữ liệu là gì?
A. Tăng kích thước của tập dữ liệu
B. Loại bỏ hoặc sửa chữa các giá trị sai sót, thiếu hoặc không nhất quán
C. Chuyển đổi dữ liệu sang định dạng khác
D. Mã hóa dữ liệu để bảo mật
7. Đâu là một ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính?
A. Dự đoán xu hướng thời trang
B. Phát hiện gian lận thẻ tín dụng
C. Tối ưu hóa tuyến đường giao thông
D. Phân tích thành phần hóa học của đất
8. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu văn bản trong khai phá dữ liệu?
A. One-hot encoding
B. Chuẩn hóa dữ liệu (Data Normalization)
C. Rời rạc hóa dữ liệu (Data Discretization)
D. Phân tích thành phần chính (PCA)
9. Trong ngữ cảnh khai phá dữ liệu, `curse of dimensionality` đề cập đến vấn đề gì?
A. Sự gia tăng độ phức tạp và giảm hiệu suất của các thuật toán khi số lượng chiều dữ liệu tăng lên
B. Sự khó khăn trong việc làm sạch dữ liệu
C. Sự thiếu hụt các công cụ khai phá dữ liệu phù hợp
D. Sự khó khăn trong việc trực quan hóa dữ liệu nhiều chiều
10. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Thay thế bằng giá trị trung bình hoặc trung vị
C. Rời rạc hóa dữ liệu
D. Giảm chiều dữ liệu
11. Trong khai phá dữ liệu, thuật ngữ `feature engineering` đề cập đến quá trình nào?
A. Chọn các thuộc tính quan trọng nhất từ tập dữ liệu
B. Tạo ra các thuộc tính mới từ các thuộc tính hiện có để cải thiện hiệu suất mô hình
C. Giảm số lượng thuộc tính trong tập dữ liệu
D. Làm sạch và chuẩn hóa dữ liệu
12. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để khám phá cấu trúc ẩn trong dữ liệu bằng cách giảm số lượng chiều dữ liệu?
A. Phân tích hồi quy
B. Phân tích thành phần chính (PCA)
C. Phân tích tương quan
D. Phân tích chuỗi thời gian
13. Phương pháp khai phá dữ liệu nào được sử dụng để tìm các nhóm đối tượng tương tự nhau dựa trên các thuộc tính của chúng?
A. Phân tích hồi quy
B. Phân cụm
C. Phân loại
D. Phân tích chuỗi thời gian
14. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để tìm các chuỗi sự kiện xảy ra theo một trình tự nhất định?
A. Phân tích hồi quy
B. Phân tích chuỗi thời gian
C. Phân tích trình tự (sequence analysis)
D. Phân tích tương quan
15. Trong khai phá dữ liệu, `root mean squared error` (RMSE) là một độ đo được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình phân loại
B. Mô hình hồi quy
C. Mô hình phân cụm
D. Mô hình giảm chiều dữ liệu
16. Trong ngữ cảnh khai phá dữ liệu, `overfitting` đề cập đến vấn đề gì?
A. Mô hình quá phức tạp và khớp quá chặt với dữ liệu huấn luyện
B. Dữ liệu huấn luyện chứa quá nhiều giá trị thiếu
C. Thuật toán khai phá dữ liệu chạy quá chậm
D. Mô hình không đủ phức tạp để nắm bắt các mẫu trong dữ liệu
17. Trong khai phá dữ liệu, `support`, `confidence`, và `lift` là các độ đo quan trọng trong kỹ thuật nào?
A. Phân tích hồi quy
B. Phân tích kết hợp (Association rule mining)
C. Phân cụm
D. Phân loại
18. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Giảm chiều dữ liệu
D. Làm sạch dữ liệu
19. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để dự đoán giá trị của một biến số dựa trên giá trị của các biến số khác?
A. Phân tích tương quan
B. Phân tích hồi quy
C. Phân tích phương sai
D. Phân tích thành phần chính
20. Đâu là một ứng dụng phổ biến của khai phá dữ liệu trong lĩnh vực marketing?
A. Dự đoán thời tiết
B. Phân tích cảm xúc khách hàng từ các đánh giá trực tuyến
C. Phát hiện gian lận trong giao dịch tài chính
D. Tối ưu hóa lịch trình sản xuất
21. Đâu là một thách thức lớn trong việc khai phá dữ liệu từ các nguồn dữ liệu lớn và phức tạp?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả
B. Khả năng mở rộng của các thuật toán và cơ sở hạ tầng tính toán
C. Sự thiếu hụt các chuyên gia khai phá dữ liệu
D. Sự thiếu hụt các công cụ trực quan hóa dữ liệu
22. Thuật toán nào sau đây thường được sử dụng để phân cụm dữ liệu?
A. Linear Regression
B. Logistic Regression
C. K-means
D. Decision Tree
23. Trong khai phá dữ liệu, `cross-validation` là kỹ thuật được sử dụng để làm gì?
A. Làm sạch dữ liệu
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy
C. Giảm chiều dữ liệu
D. Tìm kiếm các quy luật kết hợp
24. Trong khai phá dữ liệu, thuật ngữ `ensemble methods` đề cập đến điều gì?
A. Các phương pháp kết hợp nhiều mô hình học máy để cải thiện độ chính xác
B. Các phương pháp làm sạch dữ liệu tự động
C. Các phương pháp giảm chiều dữ liệu
D. Các phương pháp trực quan hóa dữ liệu
25. Trong khai phá dữ liệu, `support vector machine` (SVM) là một thuật toán thuộc loại nào?
A. Phân cụm
B. Phân loại
C. Hồi quy
D. Giảm chiều dữ liệu
26. Trong khai phá dữ liệu, `data warehouse` là gì?
A. Một cơ sở dữ liệu được tối ưu hóa cho việc lưu trữ và phân tích dữ liệu
B. Một công cụ để trực quan hóa dữ liệu
C. Một thuật toán để phân cụm dữ liệu
D. Một kỹ thuật để làm sạch dữ liệu
27. Trong khai phá dữ liệu, kỹ thuật `association rule mining` thường được sử dụng để giải quyết bài toán nào?
A. Dự đoán giá trị của một biến số liên tục
B. Tìm kiếm các mẫu phổ biến trong dữ liệu giao dịch
C. Phân nhóm các đối tượng dựa trên đặc điểm tương đồng
D. Giảm số lượng chiều dữ liệu
28. Phương pháp nào sau đây thường được sử dụng để đánh giá mức độ tương đồng giữa hai chuỗi văn bản trong khai phá văn bản?
A. Euclidean distance
B. Cosine similarity
C. Manhattan distance
D. Standard deviation
29. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để xác định các điểm dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu?
A. Phân tích hồi quy
B. Phân tích ngoại lệ (outlier analysis)
C. Phân tích tương quan
D. Phân tích thành phần chính
30. Mục tiêu của việc sử dụng kỹ thuật `rời rạc hóa dữ liệu` (data discretization) trong tiền xử lý dữ liệu là gì?
A. Giảm số lượng thuộc tính trong dữ liệu
B. Chuyển đổi dữ liệu số thành dữ liệu phạm trù (categorical)
C. Chuẩn hóa dữ liệu về một khoảng giá trị nhất định
D. Loại bỏ các giá trị ngoại lệ (outliers)