1. Thuật ngữ nào sau đây mô tả quá trình lựa chọn một tập hợp con các đặc trưng (features) quan trọng nhất từ tập dữ liệu ban đầu?
A. Feature engineering
B. Feature selection
C. Feature scaling
D. Feature extraction
2. Kỹ thuật nào sau đây thường được sử dụng để giảm thiểu tác động của overfitting trong mô hình cây quyết định?
A. Tăng chiều dữ liệu
B. Pruning (cắt tỉa cây)
C. One-hot encoding
D. Áp dụng PCA
3. Mục tiêu chính của việc sử dụng `cross-validation` trong học máy là gì?
A. Để tăng tốc quá trình huấn luyện mô hình.
B. Để ước lượng hiệu suất của mô hình trên dữ liệu mới và đánh giá khả năng khái quát hóa của nó.
C. Để giảm kích thước của tập dữ liệu.
D. Để ngăn chặn overfitting trên dữ liệu huấn luyện.
4. Khi nào thì việc sử dụng một mô hình phức tạp (ví dụ: mạng nơ-ron sâu) được ưu tiên hơn một mô hình đơn giản (ví dụ: hồi quy tuyến tính)?
A. Khi dữ liệu có ít đặc trưng.
B. Khi có ít dữ liệu huấn luyện.
C. Khi mối quan hệ giữa các đặc trưng và biến mục tiêu là phi tuyến tính và phức tạp.
D. Khi cần một mô hình dễ giải thích.
5. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình học máy khi dữ liệu có sự mất cân bằng lớp (class imbalance)?
A. Accuracy
B. Precision
C. F1-score
D. Recall
6. Trong các thuật toán học máy sau, thuật toán nào thuộc loại học có giám sát (supervised learning)?
A. K-means clustering
B. Phân tích thành phần chính (PCA)
C. Hồi quy logistic
D. Apriori algorithm
7. Hàm kích hoạt (activation function) nào thường được sử dụng trong lớp ẩn của mạng nơ-ron để giới thiệu tính phi tuyến?
A. Hàm tuyến tính
B. Hàm Sigmoid
C. Hàm ngưỡng
D. Hàm đồng nhất
8. Sự khác biệt chính giữa `học có giám sát` (supervised learning) và `học không giám sát` (unsupervised learning) là gì?
A. Học có giám sát sử dụng dữ liệu được gắn nhãn, trong khi học không giám sát sử dụng dữ liệu không được gắn nhãn.
B. Học có giám sát được sử dụng cho các bài toán phân loại, trong khi học không giám sát được sử dụng cho các bài toán hồi quy.
C. Học có giám sát đòi hỏi nhiều tài nguyên tính toán hơn so với học không giám sát.
D. Học có giám sát luôn cho kết quả chính xác hơn so với học không giám sát.
9. Trong ngữ cảnh của học tăng cường (reinforcement learning), thành phần nào chịu trách nhiệm quyết định hành động nào nên được thực hiện trong một trạng thái nhất định?
A. Environment
B. Reward function
C. Policy
D. Value function
10. Trong học sâu (deep learning), kiến trúc mạng nơ-ron nào đặc biệt hiệu quả trong việc xử lý dữ liệu chuỗi (sequential data) như văn bản hoặc chuỗi thời gian?
A. Convolutional Neural Network (CNN)
B. Recurrent Neural Network (RNN)
C. Deep Belief Network (DBN)
D. Generative Adversarial Network (GAN)
11. Phương pháp nào sau đây giúp ngăn chặn overfitting bằng cách thêm một khoản phạt (penalty) vào hàm mất mát (loss function) dựa trên độ lớn của các trọng số (weights)?
A. Gradient Descent
B. Regularization
C. Cross-validation
D. Feature scaling
12. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân loại nhị phân (binary classification)?
A. Mean Squared Error (MSE)
B. R-squared
C. Accuracy
D. Root Mean Squared Error (RMSE)
13. Trong học máy, `one-hot encoding` được sử dụng để làm gì?
A. Để chuẩn hóa dữ liệu số.
B. Để chuyển đổi dữ liệu phân loại thành định dạng số mà các mô hình học máy có thể xử lý.
C. Để giảm chiều dữ liệu.
D. Để phát hiện các giá trị ngoại lệ (outliers) trong dữ liệu.
14. Trong học máy, `bias-variance tradeoff` đề cập đến điều gì?
A. Sự cân bằng giữa độ chính xác trên dữ liệu huấn luyện và độ chính xác trên dữ liệu kiểm tra.
B. Sự cân bằng giữa sự đơn giản của mô hình và khả năng khái quát hóa của nó.
C. Sự cân bằng giữa việc mô hình quá khớp (overfitting) và mô hình không khớp (underfitting) dữ liệu.
D. Tất cả các đáp án trên.
15. Trong học máy, mục đích của việc `chuẩn hóa dữ liệu` (data normalization) là gì?
A. Để giảm số lượng đặc trưng trong dữ liệu.
B. Để đảm bảo rằng tất cả các đặc trưng có cùng thang đo, ngăn chặn các đặc trưng có giá trị lớn hơn ảnh hưởng quá mức đến mô hình.
C. Để loại bỏ các giá trị ngoại lệ (outliers) khỏi dữ liệu.
D. Để tăng cường dữ liệu huấn luyện.
16. Phương pháp nào sau đây thường được sử dụng để tìm các cụm (clusters) trong dữ liệu mà không cần bất kỳ nhãn nào?
A. Hồi quy tuyến tính
B. Phân cụm K-means
C. Cây quyết định
D. Máy vector hỗ trợ (SVM)
17. Phương pháp nào sau đây được sử dụng để tìm kiếm các siêu tham số (hyperparameters) tốt nhất cho một mô hình học máy bằng cách thử tất cả các kết hợp có thể trong một phạm vi đã cho?
A. Gradient Descent
B. Grid Search
C. Random Search
D. Cross-Validation
18. Thuật ngữ nào mô tả hiện tượng mô hình học máy hoạt động tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới?
A. Underfitting
B. Overfitting
C. Regularization
D. Gradient Descent
19. Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong tập dữ liệu?
A. Feature engineering
B. Imputation
C. Normalization
D. Dimensionality reduction
20. Trong học máy, kỹ thuật nào sau đây được sử dụng để tạo ra các phiên bản mới của dữ liệu huấn luyện bằng cách áp dụng các biến đổi nhỏ (ví dụ: xoay, lật, thu phóng) cho hình ảnh hoặc thêm nhiễu vào dữ liệu?
A. Feature scaling
B. Data augmentation
C. Dimensionality reduction
D. Regularization
21. Trong học máy, phương pháp nào thường được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Mã hóa one-hot
B. Chuẩn hóa Min-Max
C. Phân tích thành phần chính (PCA)
D. Hồi quy tuyến tính
22. Khi nào thì việc sử dụng `ensemble methods` (ví dụ: Random Forest, Gradient Boosting) có thể cải thiện hiệu suất của mô hình học máy?
A. Khi dữ liệu có ít đặc trưng.
B. Khi cần một mô hình dễ giải thích.
C. Khi các mô hình đơn lẻ có độ chính xác thấp và có sự khác biệt đáng kể giữa chúng.
D. Khi cần giảm thời gian huấn luyện mô hình.
23. Trong học máy không giám sát, thuật toán nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction)?
A. Linear Regression
B. Principal Component Analysis (PCA)
C. Decision Tree
D. Support Vector Machine (SVM)
24. Thuật ngữ `recall` trong đánh giá mô hình học máy, đặc biệt là trong bài toán phân loại, thể hiện điều gì?
A. Tỷ lệ các trường hợp dự đoán dương tính là đúng.
B. Tỷ lệ các trường hợp thực tế dương tính được dự đoán đúng.
C. Tỷ lệ các trường hợp dự đoán âm tính là đúng.
D. Độ chính xác tổng thể của mô hình.
25. Trong học sâu, thuật ngữ `backpropagation` đề cập đến điều gì?
A. Quá trình truyền dữ liệu đầu vào qua mạng nơ-ron để tạo ra dự đoán.
B. Quá trình điều chỉnh các trọng số (weights) của mạng nơ-ron dựa trên lỗi dự đoán.
C. Quá trình chọn kiến trúc mạng nơ-ron tốt nhất.
D. Quá trình chuẩn hóa dữ liệu đầu vào.
26. Làm thế nào để đánh giá xem mô hình học máy có bị chệch (bias) hay không?
A. Kiểm tra độ chính xác trên dữ liệu huấn luyện.
B. Đánh giá hiệu suất trên các nhóm khác nhau trong dữ liệu và xem xét sự khác biệt đáng kể.
C. Đảm bảo rằng mô hình có nhiều lớp ẩn.
D. Sử dụng một tập dữ liệu lớn hơn để huấn luyện.
27. Trong ngữ cảnh của học tăng cường (reinforcement learning), `reward function` có vai trò gì?
A. Để xác định trạng thái hiện tại của môi trường.
B. Để đánh giá hành động của tác nhân (agent) và cung cấp phản hồi về mức độ tốt của hành động đó.
C. Để xác định chính sách (policy) tối ưu cho tác nhân.
D. Để mô phỏng môi trường tương tác với tác nhân.
28. Trong học máy, thuật ngữ `gradient descent` đề cập đến điều gì?
A. Một phương pháp để chuẩn hóa dữ liệu.
B. Một thuật toán để tìm giá trị tối thiểu của một hàm mất mát bằng cách lặp đi lặp lại theo hướng dốc nhất.
C. Một kỹ thuật để giảm số lượng đặc trưng trong dữ liệu.
D. Một phương pháp để chia dữ liệu thành các tập huấn luyện và kiểm tra.
29. Trong ngữ cảnh của `mạng nơ-ron tích chập` (convolutional neural networks - CNNs), `convolution` đề cập đến điều gì?
A. Một lớp trong mạng nơ-ron thực hiện các phép toán tuyến tính trên dữ liệu đầu vào.
B. Một phép toán toán học trượt một bộ lọc (filter) trên dữ liệu đầu vào để trích xuất các đặc trưng.
C. Một kỹ thuật để giảm kích thước của hình ảnh.
D. Một phương pháp để tăng cường dữ liệu huấn luyện.
30. Trong học máy, `feature engineering` đề cập đến điều gì?
A. Quá trình chọn thuật toán học máy tốt nhất.
B. Quá trình tạo ra các đặc trưng (features) mới hoặc chuyển đổi các đặc trưng hiện có để cải thiện hiệu suất mô hình.
C. Quá trình giảm số lượng đặc trưng trong dữ liệu.
D. Quá trình điều chỉnh các tham số của mô hình.