1. Trong Học có giám sát, thuật toán hồi quy logistic (logistic regression) được sử dụng chủ yếu cho loại bài toán nào?
A. Dự đoán giá nhà.
B. Phân loại nhị phân (ví dụ: email spam hay không spam).
C. Phân nhóm khách hàng.
D. Giảm số chiều dữ liệu.
2. Học tăng cường (Reinforcement Learning) hoạt động dựa trên nguyên tắc nào?
A. Học từ các cặp dữ liệu đầu vào và đầu ra đã biết.
B. Tìm kiếm các mẫu ẩn trong dữ liệu không có nhãn.
C. Tương tác với môi trường và nhận phần thưởng hoặc hình phạt cho các hành động.
D. Sử dụng một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữ liệu không nhãn.
3. Khái niệm bias (chệch) trong Học máy liên quan đến sai số nào?
A. Sai số do mô hình quá đơn giản, không nắm bắt được mối quan hệ thực.
B. Sai số do mô hình học thuộc lòng dữ liệu huấn luyện, không khái quát hóa tốt.
C. Sai số ngẫu nhiên không thể tránh khỏi trong dữ liệu.
D. Sai số do lỗi tính toán của thuật toán.
4. Trong Học không giám sát, thuật toán nào thường được sử dụng để phân nhóm dữ liệu dựa trên sự tương đồng?
A. Hồi quy tuyến tính (Linear Regression).
B. Phân loại (Classification).
C. Phân cụm (Clustering).
D. Hồi quy logistic (Logistic Regression).
5. Trong Học tăng cường, state (trạng thái) đại diện cho điều gì?
A. Hành động mà agent thực hiện.
B. Phần thưởng mà agent nhận được sau hành động.
C. Mô tả hiện tại của môi trường mà agent đang đối mặt.
D. Mục tiêu cuối cùng mà agent muốn đạt được.
6. Thuật toán nào thường được sử dụng để giảm số chiều của dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng?
A. Hồi quy Logistic.
B. Phân cụm K-Means.
C. Phân tích thành phần chính (PCA).
D. Cây quyết định.
7. Khi đánh giá mô hình Học máy, độ đo precision (độ chính xác) trong bài toán phân loại thường đo lường điều gì?
A. Tỷ lệ các trường hợp dương tính thực sự trong số tất cả các trường hợp được dự đoán là dương tính.
B. Tỷ lệ các trường hợp âm tính thực sự trong số tất cả các trường hợp được dự đoán là âm tính.
C. Tỷ lệ các trường hợp dương tính thực sự trong số tất cả các trường hợp dương tính thực tế.
D. Tỷ lệ các trường hợp bị phân loại sai.
8. Trong Học không giám sát, phân cụm (clustering) khác với phân loại (classification) ở điểm nào?
A. Phân cụm dự đoán giá trị liên tục, phân loại dự đoán nhãn.
B. Phân cụm không cần dữ liệu có nhãn, phân loại cần dữ liệu có nhãn.
C. Phân cụm tìm kiếm mối quan hệ giữa các đặc trưng, phân loại tìm kiếm mối quan hệ giữa đầu vào và đầu ra.
D. Cả hai đều giống nhau về bản chất.
9. Kỹ thuật feature scaling (tỷ lệ hóa đặc trưng) có ý nghĩa gì trong tiền xử lý dữ liệu?
A. Loại bỏ các đặc trưng không liên quan đến bài toán.
B. Chuyển đổi các đặc trưng có thang đo khác nhau về một thang đo chung.
C. Tăng số lượng đặc trưng bằng cách kết hợp chúng.
D. Chuyển đổi dữ liệu văn bản thành dạng số.
10. Khái niệm underfitting (chưa khớp) trong Học máy ám chỉ điều gì?
A. Mô hình quá phức tạp, học thuộc cả nhiễu trong dữ liệu huấn luyện.
B. Mô hình quá đơn giản, không nắm bắt được quy luật cơ bản của dữ liệu.
C. Mô hình hoạt động tốt trên dữ liệu mới nhưng kém trên dữ liệu huấn luyện.
D. Dữ liệu huấn luyện có quá nhiều đặc trưng.
11. Loại hình Học máy nào chủ yếu dựa vào việc cung cấp cho mô hình các cặp dữ liệu đầu vào và đầu ra mong muốn?
A. Học không giám sát (Unsupervised Learning).
B. Học tăng cường (Reinforcement Learning).
C. Học có giám sát (Supervised Learning).
D. Học bán giám sát (Semi-supervised Learning).
12. Tại sao việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (test set) lại quan trọng trong Học máy?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đảm bảo mô hình có thể hoạt động trên dữ liệu chưa từng thấy và đánh giá khả năng khái quát hóa.
C. Để loại bỏ các đặc trưng không cần thiết.
D. Để lựa chọn thuật toán phù hợp nhất.
13. Thuật toán nào là một ví dụ điển hình của Học có giám sát cho bài toán phân loại?
A. K-Means.
B. Hồi quy tuyến tính.
C. Cây quyết định (Decision Tree).
D. Phân tích thành phần chính (Principal Component Analysis - PCA).
14. Trong Học máy, hyperparameter (siêu tham số) là gì?
A. Các giá trị được mô hình học từ dữ liệu trong quá trình huấn luyện.
B. Các tham số được thiết lập trước khi quá trình huấn luyện bắt đầu và không được học từ dữ liệu.
C. Kết quả đầu ra cuối cùng của mô hình.
D. Các đặc trưng được chọn lọc từ tập dữ liệu ban đầu.
15. Mô hình Học máy nào có khả năng học các mối quan hệ phi tuyến phức tạp giữa đầu vào và đầu ra?
A. Hồi quy tuyến tính đơn giản.
B. Hồi quy Logistic.
C. Mạng nơ-ron nhân tạo (Artificial Neural Networks).
D. Tất cả các lựa chọn trên đều có thể học mối quan hệ phi tuyến.
16. Thuật toán K-Means thuộc loại hình Học máy nào?
A. Học có giám sát.
B. Học tăng cường.
C. Học không giám sát.
D. Học bán giám sát.
17. Một hệ thống gợi ý phim trên nền tảng xem phim trực tuyến sử dụng Học máy thuộc loại hình nào?
A. Học tăng cường.
B. Học có giám sát.
C. Học không giám sát (thường là phân cụm hoặc lọc cộng tác).
D. Học bán giám sát.
18. Đâu không phải là một ứng dụng phổ biến của Học máy?
A. Nhận dạng khuôn mặt.
B. Dự báo thời tiết chính xác 100% cho mọi địa điểm.
C. Hệ thống gợi ý sản phẩm trên các trang thương mại điện tử.
D. Phát hiện gian lận thẻ tín dụng.
19. Trong lĩnh vực Học máy, thuật ngữ feature (đặc trưng) thường được sử dụng để chỉ khía cạnh nào của dữ liệu?
A. Các giá trị được dự đoán bởi mô hình.
B. Các thuộc tính hoặc đặc điểm có thể đo lường được của đối tượng cần phân tích.
C. Kết quả cuối cùng của quá trình huấn luyện mô hình.
D. Các tham số mà mô hình học được từ dữ liệu.
20. Trong Học có giám sát, nhiệm vụ phân loại (classification) là gì?
A. Dự đoán một giá trị số liên tục.
B. Gán một đối tượng dữ liệu vào một trong các nhóm (lớp) đã định sẵn.
C. Tìm kiếm các cấu trúc hoặc mối quan hệ ẩn trong dữ liệu.
D. Tối ưu hóa một chuỗi các hành động để đạt phần thưởng lớn nhất.
21. Trong Học có giám sát, nhãn (label) là gì?
A. Một đặc trưng quan trọng của dữ liệu.
B. Kết quả hoặc câu trả lời đúng mà mô hình cần dự đoán.
C. Một siêu tham số của thuật toán.
D. Dữ liệu chưa được tiền xử lý.
22. Trong Học có giám sát, thuật toán nào thường được dùng để dự đoán một giá trị liên tục (ví dụ: giá nhà)?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).
23. Khái niệm overfitting (quá khớp) trong Học máy xảy ra khi nào?
A. Mô hình học quá chậm và không nắm bắt được quy luật của dữ liệu.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới chưa từng thấy.
C. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu mới.
D. Dữ liệu huấn luyện quá ít để mô hình học được quy luật.
24. Trong Học tăng cường, agent (tác tử) là gì?
A. Môi trường mà tác tử tương tác.
B. Hệ thống hoặc thực thể học cách đưa ra quyết định.
C. Phần thưởng mà tác tử nhận được.
D. Hành động mà tác tử thực hiện.
25. Mục tiêu chính của giai đoạn tiền xử lý dữ liệu (data preprocessing) trong Học máy là gì?
A. Tăng tốc độ huấn luyện mô hình bằng cách giảm kích thước dữ liệu.
B. Đảm bảo dữ liệu sạch, nhất quán và ở định dạng phù hợp cho việc huấn luyện mô hình.
C. Chọn thuật toán Học máy tối ưu cho bài toán.
D. Trực quan hóa dữ liệu để dễ dàng hiểu hơn.