[Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu
1. Một nhà khoa học dữ liệu muốn xác định mối quan hệ giữa số giờ học và điểm thi của sinh viên. Loại phân tích nào phù hợp nhất cho mục tiêu này?
A. Phân tích phân cụm (Clustering Analysis).
B. Phân tích mối tương quan (Correlation Analysis).
C. Phân tích nhân tố (Factor Analysis).
D. Phân tích chuỗi thời gian (Time Series Analysis).
2. Một nhà khoa học dữ liệu đang xây dựng một mô hình dự đoán giá nhà. Yếu tố diện tích (square footage) của căn nhà sẽ thuộc loại thuộc tính nào?
A. Thuộc tính phân loại (Categorical Feature).
B. Thuộc tính số liên tục (Continuous Numerical Feature).
C. Thuộc tính số rời rạc (Discrete Numerical Feature).
D. Thuộc tính thứ bậc (Ordinal Feature).
3. Trong Kỹ thuật tiền xử lý dữ liệu, chuẩn hóa (Normalization) thường được áp dụng cho các thuộc tính số có phạm vi giá trị khác nhau như thế nào?
A. Tăng giá trị của tất cả các thuộc tính lên một bội số cố định.
B. Chuyển đổi các giá trị về một phạm vi chung, ví dụ từ 0 đến 1, để tránh sự chi phối của thuộc tính có thang đo lớn hơn.
C. Loại bỏ hoàn toàn các thuộc tính số có giá trị ngoại lệ.
D. Gộp các thuộc tính số thành một thuộc tính duy nhất.
4. Trong học máy, mô hình dự đoán (Predictive Model) được sử dụng để làm gì?
A. Phân loại dữ liệu thành các nhóm.
B. Tạo ra các báo cáo tóm tắt về dữ liệu hiện có.
C. Dự đoán các kết quả hoặc giá trị tương lai dựa trên dữ liệu đã học.
D. Trực quan hóa các mẫu ẩn trong dữ liệu.
5. Một công ty muốn dự đoán khả năng một khách hàng sẽ ngừng sử dụng dịch vụ của họ. Loại bài toán học máy nào phù hợp nhất cho mục tiêu này?
A. Hồi quy (Regression).
B. Phân loại (Classification).
C. Phân cụm (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).
6. Trong xử lý ngôn ngữ tự nhiên (NLP), tokenization là bước đầu tiên quan trọng, có nghĩa là gì?
A. Chuyển đổi văn bản thành các câu riêng biệt.
B. Phân tích ngữ pháp của câu.
C. Tách văn bản thành các đơn vị nhỏ hơn như từ, cụm từ hoặc ký tự.
D. Xác định cảm xúc trong văn bản.
7. Trong Khoa học dữ liệu, data governance (quản trị dữ liệu) đề cập đến các yếu tố nào?
A. Chỉ việc sử dụng các công cụ phân tích mới nhất.
B. Các chính sách, quy trình, tiêu chuẩn và kiểm soát để đảm bảo dữ liệu được quản lý hiệu quả, an toàn và tuân thủ quy định.
C. Việc tạo ra các mô hình dự đoán phức tạp.
D. Hoạt động tiếp thị dựa trên dữ liệu khách hàng.
8. Khi đánh giá mô hình hồi quy, chỉ số R-squared (hệ số xác định) cho biết điều gì?
A. Tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
B. Độ lệch trung bình tuyệt đối giữa giá trị dự đoán và giá trị thực tế.
C. Số lượng các biến độc lập được sử dụng trong mô hình.
D. Tần suất xuất hiện của các giá trị ngoại lệ.
9. Trong Khoa học dữ liệu, A/B Testing (Thử nghiệm A/B) là một phương pháp được sử dụng để làm gì?
A. Huấn luyện mô hình học máy trên hai tập dữ liệu khác nhau.
B. So sánh hai phiên bản khác nhau của một trang web, ứng dụng hoặc chiến dịch để xác định phiên bản nào hoạt động tốt hơn.
C. Phân tích mối tương quan giữa hai biến số.
D. Dự đoán xu hướng thị trường trong tương lai.
10. Quá trình thu thập dữ liệu từ các nguồn khác nhau, bao gồm web, cơ sở dữ liệu, cảm biến, mạng xã hội, được gọi là gì trong Khoa học dữ liệu?
A. Trực quan hóa dữ liệu (Data Visualization).
B. Kỹ thuật tiền xử lý dữ liệu (Data Preprocessing).
C. Thu thập dữ liệu (Data Collection).
D. Mô hình hóa dữ liệu (Data Modeling).
11. Khi phân tích dữ liệu về hành vi khách hàng, phân tích giỏ hàng (Market Basket Analysis) thường được sử dụng để tìm ra gì?
A. Số lượng khách hàng trung thành.
B. Các mặt hàng thường được mua cùng nhau.
C. Thời điểm mua sắm cao điểm.
D. Xu hướng giá của các sản phẩm.
12. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số Precision đo lường điều gì?
A. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp được mô hình dự đoán là dương tính.
B. Tỷ lệ các trường hợp âm tính thực sự trong tất cả các trường hợp được mô hình dự đoán là âm tính.
C. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp dương tính thực tế.
D. Tổng số dự đoán đúng chia cho tổng số dự đoán.
13. Một nhà khoa học dữ liệu muốn xây dựng hệ thống gợi ý phim cho người dùng dựa trên lịch sử xem phim của họ. Thuật toán Collaborative Filtering (Lọc cộng tác) hoạt động dựa trên nguyên tắc nào?
A. Phân tích nội dung của phim mà người dùng đã xem.
B. Tìm kiếm những người dùng có sở thích tương tự và gợi ý các phim mà những người dùng đó thích.
C. Dựa vào xếp hạng sao trung bình của tất cả các phim.
D. Sử dụng các thẻ (tags) và mô tả phim để tìm phim liên quan.
14. Trong lĩnh vực Khoa học dữ liệu, thuật ngữ Big Data thường ám chỉ tập dữ liệu có đặc điểm nào sau đây, vượt xa khả năng xử lý của các công cụ truyền thống?
A. Dữ liệu có cấu trúc, dễ dàng truy vấn bằng SQL.
B. Dữ liệu có dung lượng nhỏ, dễ dàng lưu trữ trên một máy tính cá nhân.
C. Dữ liệu có khối lượng lớn, đa dạng về định dạng và thay đổi liên tục.
D. Dữ liệu chỉ bao gồm văn bản, không có hình ảnh hoặc video.
15. Khi một mô hình học máy có hiệu suất rất cao trên dữ liệu huấn luyện nhưng lại kém trên dữ liệu mới chưa từng thấy, hiện tượng này được gọi là gì?
A. Underfitting (Thiếu khớp).
B. Overfitting (Quá khớp).
C. Bias (Độ chệch).
D. Variance (Phương sai).
16. Trong Khoa học dữ liệu, Big Data Analytics tập trung vào việc gì?
A. Phân tích các tập dữ liệu nhỏ, có cấu trúc.
B. Sử dụng các phương pháp thống kê truyền thống trên mọi loại dữ liệu.
C. Áp dụng các kỹ thuật phân tích tiên tiến để khám phá các mẫu, xu hướng và thông tin chi tiết từ các tập dữ liệu lớn và phức tạp.
D. Chỉ tập trung vào việc lưu trữ dữ liệu.
17. Thuật toán K-Means thuộc loại thuật toán nào trong Học máy?
A. Học có giám sát (Supervised Learning).
B. Học không giám sát (Unsupervised Learning).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).
18. Trong Khoa học dữ liệu, model deployment (triển khai mô hình) là giai đoạn nào?
A. Giai đoạn thu thập và làm sạch dữ liệu.
B. Giai đoạn huấn luyện và đánh giá mô hình trên dữ liệu.
C. Giai đoạn tích hợp mô hình đã được huấn luyện vào môi trường sản xuất để sử dụng thực tế.
D. Giai đoạn khám phá và trực quan hóa dữ liệu.
19. Trong Khoa học dữ liệu, Exploratory Data Analysis (EDA - Phân tích Khám phá Dữ liệu) là một giai đoạn nhằm mục đích gì?
A. Huấn luyện mô hình học máy tiên tiến nhất.
B. Trình bày kết quả cuối cùng cho các bên liên quan.
C. Hiểu rõ hơn về tập dữ liệu, phát hiện các mẫu, mối quan hệ, điểm bất thường và kiểm định các giả thuyết ban đầu.
D. Tối ưu hóa hiệu suất của các thuật toán đã chọn.
20. Tại sao việc làm sạch dữ liệu (Data Cleaning) lại quan trọng trong phân tích Khoa học dữ liệu?
A. Để làm tăng dung lượng của tập dữ liệu.
B. Để loại bỏ các lỗi, giá trị thiếu hoặc không nhất quán, đảm bảo độ tin cậy của phân tích.
C. Để làm cho dữ liệu dễ đọc hơn cho người không chuyên.
D. Để thay đổi định dạng dữ liệu thành file CSV.
21. Khi làm việc với dữ liệu chuỗi thời gian (Time Series Data), mục tiêu chính của Forecasting (Dự báo) là gì?
A. Xác định các điểm bất thường trong dữ liệu.
B. Dự đoán các giá trị hoặc xu hướng trong tương lai dựa trên dữ liệu lịch sử.
C. Phân tích mối quan hệ giữa các biến độc lập.
D. Phân loại dữ liệu thành các nhóm.
22. Một nhà khoa học dữ liệu sử dụng thuật toán Decision Tree (Cây quyết định) để phân loại khách hàng có khả năng mua sản phẩm hay không. Cấu trúc của Cây quyết định bao gồm các thành phần chính nào?
A. Chỉ có các nút lá (Leaf nodes) biểu diễn kết quả.
B. Các nút gốc (Root node), nút nội bộ (Internal nodes) biểu diễn các thuộc tính và điều kiện, và các nút lá (Leaf nodes) biểu diễn các lớp hoặc giá trị dự đoán.
C. Chỉ có các cạnh (Edges) nối các quyết định.
D. Một vòng lặp duy nhất chứa tất cả các điều kiện.
23. Trong Khoa học dữ liệu, thuật ngữ feature engineering (kỹ thuật đặc trưng) có nghĩa là gì?
A. Việc tạo ra các biến mới hoặc chỉnh sửa các biến hiện có từ dữ liệu thô để cải thiện hiệu suất của mô hình.
B. Việc lựa chọn các biến quan trọng nhất từ tập dữ liệu.
C. Việc loại bỏ các biến không liên quan.
D. Việc đặt tên cho các cột trong bảng dữ liệu.
24. Trong xử lý ảnh bằng Khoa học dữ liệu, Image Segmentation (Phân đoạn ảnh) là quá trình gì?
A. Tăng cường độ sáng của ảnh.
B. Chuyển đổi ảnh sang ảnh đen trắng.
C. Chia ảnh thành nhiều vùng hoặc đối tượng có ý nghĩa, thường dựa trên các thuộc tính như màu sắc, kết cấu.
D. Giảm kích thước file ảnh.
25. Thuật ngữ trực quan hóa dữ liệu (Data Visualization) đề cập đến việc gì trong Khoa học dữ liệu?
A. Việc viết báo cáo bằng ngôn ngữ tự nhiên.
B. Sử dụng biểu đồ, đồ thị và các phương tiện hình ảnh khác để biểu diễn dữ liệu và kết quả phân tích.
C. Áp dụng các thuật toán thống kê phức tạp.
D. Lưu trữ dữ liệu vào các cơ sở dữ liệu quan hệ.