1. Mô hình học máy nào thường được sử dụng để dự đoán một chuỗi các sự kiện hoặc giá trị theo thời gian?
A. Hồi quy tuyến tính
B. Máy học Vector Hỗ trợ (SVM)
C. Mạng nơ-ron tái phát (Recurrent Neural Network - RNN)
D. Cây quyết định
2. Đâu là ví dụ điển hình cho bài toán học không giám sát (unsupervised learning)?
A. Dự đoán giá nhà dựa trên diện tích và vị trí.
B. Phân loại email thành thư rác hoặc không thư rác.
C. Nhóm các khách hàng có hành vi mua sắm tương tự nhau.
D. Nhận diện khuôn mặt trong ảnh.
3. Khái niệm học có giám sát (supervised learning) trong học máy đề cập đến việc huấn luyện mô hình với loại dữ liệu nào?
A. Dữ liệu không có nhãn (unlabeled data)
B. Dữ liệu có nhãn (labeled data)
C. Dữ liệu dạng văn bản tự do
D. Dữ liệu dạng chuỗi thời gian
4. Khái niệm siêu tham số (hyperparameter) trong học máy đề cập đến gì?
A. Các giá trị của biến phụ thuộc trong dữ liệu huấn luyện.
B. Các tham số của mô hình được học tự động từ dữ liệu.
C. Các tham số cấu hình mô hình được đặt trước khi huấn luyện và không được học từ dữ liệu.
D. Kết quả dự đoán của mô hình trên dữ liệu mới.
5. Trong học máy, đặc trưng (feature) là gì?
A. Kết quả đầu ra của mô hình.
B. Một thuộc tính hoặc đặc điểm có thể đo lường được của đối tượng đang được phân tích.
C. Tên của thuật toán học máy được sử dụng.
D. Nhãn của một điểm dữ liệu.
6. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data) mà học máy có thể xử lý?
A. Bảng tính Excel chứa dữ liệu bán hàng.
B. Tệp CSV với các cột rõ ràng.
C. Tệp âm thanh ghi lại cuộc hội thoại.
D. Cơ sở dữ liệu quan hệ với các bảng được liên kết.
7. Khái niệm học sâu (deep learning) là một nhánh của học máy sử dụng loại kiến trúc mô hình nào?
A. Cây quyết định đơn giản
B. Mạng nơ-ron nhân tạo với nhiều lớp ẩn
C. Hồi quy tuyến tính đa biến
D. Các thuật toán phân cụm truyền thống
8. Thuật toán phân loại Naive Bayes dựa trên nguyên lý xác suất nào?
A. Định lý Bayes
B. Định lý Trung tâm Giới hạn
C. Định luật Số lớn
D. Nguyên lý Dirichlet
9. Trong học máy, loại thuật toán nào thường được sử dụng để phân loại dữ liệu dựa trên các mẫu đã học từ dữ liệu huấn luyện?
A. Thuật toán hồi quy
B. Thuật toán phân cụm
C. Thuật toán phân loại
D. Thuật toán giảm chiều dữ liệu
10. Mục tiêu chính của giai đoạn huấn luyện (training) trong học máy là gì?
A. Đánh giá hiệu suất của mô hình trên dữ liệu mới.
B. Tinh chỉnh các tham số của mô hình để giảm thiểu sai số trên dữ liệu huấn luyện.
C. Trực quan hóa kết quả dự đoán của mô hình.
D. Thu thập thêm dữ liệu mới để mở rộng tập huấn luyện.
11. Thuật toán nào thường được sử dụng để phân chia dữ liệu thành các nhóm dựa trên sự tương đồng về đặc trưng mà không cần nhãn?
A. Hồi quy Logistic
B. Máy học Vector Hỗ trợ (SVM)
C. K-Means
D. Cây quyết định
12. Thuật toán Cây quyết định (Decision Tree) có thể được sử dụng cho cả hai loại bài toán nào trong học máy?
A. Học tăng cường và Học bán giám sát
B. Phân loại và Hồi quy
C. Phân cụm và Luật kết hợp
D. Giảm chiều dữ liệu và Nhận dạng mẫu
13. Mục đích của việc chia tập dữ liệu thành huấn luyện, xác thực và kiểm tra là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đảm bảo mô hình học tốt và có khả năng tổng quát hóa trên dữ liệu mới.
C. Để lựa chọn thuật toán học máy phù hợp nhất.
D. Để giảm thiểu số lượng đặc trưng cần sử dụng.
14. Thuật toán phân cụm (clustering) trong học máy thuộc loại hình học nào?
A. Học có giám sát
B. Học không giám sát
C. Học tăng cường
D. Học bán giám sát
15. Trong học máy, dữ liệu huấn luyện (training data) được sử dụng để làm gì?
A. Đánh giá cuối cùng về hiệu suất của mô hình.
B. Để mô hình học các mẫu và mối quan hệ.
C. Kiểm tra xem mô hình có bị quá khớp (overfitting) hay không.
D. Trực quan hóa các đặc trưng của dữ liệu.
16. Trong học máy, thuật toán nào thường được sử dụng để phát hiện các điểm dữ liệu bất thường hoặc khác biệt đáng kể so với phần còn lại của tập dữ liệu?
A. Hồi quy Logistic
B. Phân tích thành phần chính (PCA)
C. Phát hiện điểm dị thường (Anomaly Detection)
D. K-Means
17. Trong học máy, làm thế nào để giảm thiểu hiện tượng chưa khớp (underfitting)?
A. Sử dụng mô hình phức tạp hơn hoặc thêm đặc trưng mới.
B. Giảm số lượng đặc trưng hoặc làm cho mô hình đơn giản hơn.
C. Huấn luyện mô hình lâu hơn trên cùng một tập dữ liệu.
D. Giảm kích thước của tập dữ liệu huấn luyện.
18. Thuật toán nào sau đây KHÔNG thuộc nhóm học có giám sát?
A. Hồi quy tuyến tính (Linear Regression)
B. Máy học vector hỗ trợ (Support Vector Machine - SVM)
C. Cây quyết định (Decision Tree)
D. Phân tích thành phần chính (Principal Component Analysis - PCA)
19. Học tăng cường (reinforcement learning) là một phương pháp học máy trong đó mô hình học bằng cách nào?
A. Phân tích các cặp dữ liệu đầu vào và đầu ra đã được gán nhãn.
B. Tìm kiếm các mẫu ẩn và cấu trúc trong dữ liệu không có nhãn.
C. Thực hiện hành động trong một môi trường và nhận phản hồi (thưởng/phạt) để cải thiện hành vi.
D. Dự đoán giá trị liên tục dựa trên các biến đầu vào.
20. Đâu là một ví dụ về bài toán học có giám sát dạng hồi quy (regression)?
A. Phân loại email là thư rác hay không thư rác.
B. Dự đoán nhiệt độ ngày mai dựa trên dữ liệu thời tiết lịch sử.
C. Nhận diện xem một hình ảnh chứa mèo hay chó.
D. Nhóm các bài báo theo chủ đề tương tự.
21. Trong học máy, dữ liệu kiểm tra (test data) được sử dụng chủ yếu cho mục đích nào?
A. Huấn luyện mô hình và điều chỉnh siêu tham số.
B. Đánh giá hiệu suất cuối cùng của mô hình đã được huấn luyện trên dữ liệu thực tế.
C. Khám phá các mẫu ẩn trong dữ liệu.
D. Xử lý dữ liệu bị thiếu hoặc lỗi.
22. Thuật toán hồi quy tuyến tính (linear regression) được sử dụng để làm gì trong học máy?
A. Phân cụm dữ liệu thành các nhóm khác nhau.
B. Xây dựng một đường thẳng (hoặc siêu phẳng) để mô tả mối quan hệ giữa biến phụ thuộc và biến độc lập.
C. Phân loại dữ liệu vào các lớp được xác định trước.
D. Giảm số chiều của tập dữ liệu.
23. Hiện tượng quá khớp (overfitting) trong học máy xảy ra khi mô hình hoạt động tốt trên dữ liệu nào nhưng kém trên dữ liệu mới?
A. Dữ liệu huấn luyện
B. Dữ liệu kiểm tra
C. Dữ liệu xác thực (validation data)
D. Dữ liệu ngoại lai (outlier data)
24. Trong học máy, tốc độ học (learning rate) là một siêu tham số quan trọng ảnh hưởng đến quá trình hội tụ của thuật toán thuộc loại nào?
A. Các thuật toán tối ưu hóa dựa trên gradient descent.
B. Các thuật toán phân cụm.
C. Các thuật toán luật kết hợp.
D. Các thuật toán giảm chiều dữ liệu.
25. Trong học máy, thuật toán nào thường được sử dụng để tìm ra các quy luật ẩn trong tập dữ liệu lớn, ví dụ như các sản phẩm thường được mua cùng nhau?
A. Thuật toán phân cụm (Clustering)
B. Thuật toán phân loại (Classification)
C. Thuật toán luật kết hợp (Association Rule Mining)
D. Thuật toán hồi quy (Regression)