[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)
1. Trong quy trình làm việc của Khoa học dữ liệu, giai đoạn Data Cleaning (Làm sạch dữ liệu) chủ yếu tập trung vào hoạt động nào?
A. Xây dựng mô hình dự đoán dựa trên dữ liệu đã được tiền xử lý.
B. Phát hiện và xử lý các giá trị thiếu, ngoại lai, hoặc không nhất quán trong dữ liệu.
C. Trực quan hóa dữ liệu để dễ dàng hiểu các xu hướng.
D. Thu thập dữ liệu từ nhiều nguồn khác nhau.
2. Yếu tố nào sau đây KHÔNG phải là một bước trong quy trình Khoa học dữ liệu điển hình?
A. Thu thập dữ liệu.
B. Phân tích khám phá dữ liệu (EDA).
C. Thiết kế vi mạch điện tử.
D. Xây dựng và triển khai mô hình.
3. Yếu tố nào là quan trọng nhất để đảm bảo tính Veracity (Tính xác thực) của dữ liệu trong Khoa học dữ liệu?
A. Tốc độ thu thập dữ liệu.
B. Khả năng lưu trữ dữ liệu.
C. Nguồn gốc đáng tin cậy và quy trình xác minh dữ liệu.
D. Độ phức tạp của cấu trúc dữ liệu.
4. Khái niệm Data Visualization (Trực quan hóa dữ liệu) trong Khoa học dữ liệu có vai trò chính là gì?
A. Tự động hóa hoàn toàn quy trình phân tích dữ liệu.
B. Biểu diễn thông tin và kết quả phân tích một cách trực quan, dễ hiểu.
C. Mã hóa dữ liệu để tăng cường bảo mật.
D. Lưu trữ dữ liệu hiệu quả trên đám mây.
5. Một nhà khoa học dữ liệu sử dụng biểu đồ phân tán (scatter plot) để:
A. So sánh phân phối của một biến duy nhất.
B. Hiển thị mối quan hệ giữa hai biến định lượng.
C. Biểu diễn tỷ lệ phần trăm của các danh mục.
D. Theo dõi sự thay đổi của dữ liệu theo thời gian.
6. Yếu tố nào dưới đây là quan trọng nhất khi lựa chọn thuật toán học máy cho một bài toán Khoa học dữ liệu cụ thể?
A. Độ phổ biến của thuật toán trên mạng xã hội.
B. Sự sẵn có của tài liệu hướng dẫn chi tiết về thuật toán.
C. Đặc điểm của bài toán, loại dữ liệu và mục tiêu mong muốn.
D. Kích thước của bộ dữ liệu huấn luyện.
7. Yếu tố nào sau đây KHÔNG thuộc về các thách thức chính mà các nhà khoa học dữ liệu thường đối mặt khi xử lý dữ liệu lớn?
A. Đảm bảo tính riêng tư và bảo mật của dữ liệu.
B. Xử lý dữ liệu phi cấu trúc và bán cấu trúc.
C. Thiếu các thuật toán phân tích dữ liệu hiệu quả.
D. Quản lý và lưu trữ lượng dữ liệu khổng lồ.
8. Khi thực hiện Feature Selection (Lựa chọn đặc trưng) trong Khoa học dữ liệu, mục đích chính là gì?
A. Thêm càng nhiều đặc trưng càng tốt để tăng độ chính xác.
B. Loại bỏ các đặc trưng không liên quan hoặc dư thừa để cải thiện hiệu suất và giảm nhiễu.
C. Tạo ra các đặc trưng mới từ dữ liệu gốc.
D. Xác định các giá trị ngoại lai trong dữ liệu.
9. Trong các loại biểu đồ, biểu đồ cột (bar chart) thường được sử dụng để:
A. Hiển thị mối quan hệ giữa hai biến định lượng.
B. So sánh giá trị giữa các danh mục khác nhau.
C. Trình bày sự phân phối của một biến liên tục.
D. Thể hiện xu hướng của dữ liệu theo thời gian.
10. Trong Khoa học dữ liệu, thuật ngữ Model Evaluation (Đánh giá mô hình) đề cập đến việc:
A. Thu thập toàn bộ dữ liệu cần thiết cho dự án.
B. Xác định các tham số tối ưu cho thuật toán học máy.
C. Đo lường hiệu suất và chất lượng của mô hình đã huấn luyện.
D. Trực quan hóa mối quan hệ giữa các biến.
11. Khái niệm Data Governance (Quản trị dữ liệu) trong Khoa học dữ liệu nhấn mạnh vào yếu tố nào?
A. Tốc độ xử lý dữ liệu.
B. Chính sách, quy trình và tiêu chuẩn để quản lý và sử dụng dữ liệu một cách hiệu quả và có trách nhiệm.
C. Phát triển các thuật toán học máy mới.
D. Thiết kế giao diện người dùng cho các ứng dụng dữ liệu.
12. Trong Khoa học dữ liệu, Data Transformation (Chuyển đổi dữ liệu) có thể bao gồm hoạt động nào sau đây?
A. Xóa bỏ hoàn toàn các đặc trưng không liên quan.
B. Chuẩn hóa hoặc chuẩn tắc hóa các biến số.
C. Xây dựng biểu đồ.
D. Lưu trữ dữ liệu trên hệ thống phân tán.
13. Trong Khoa học dữ liệu, Data Storytelling (Kể chuyện dữ liệu) là quá trình:
A. Viết mã nguồn để phân tích dữ liệu.
B. Trình bày kết quả phân tích dữ liệu một cách mạch lạc, có ý nghĩa và hấp dẫn người nghe.
C. Lưu trữ dữ liệu trên các nền tảng đám mây.
D. Thu thập dữ liệu từ các nguồn khác nhau.
14. Trong Khoa học dữ liệu, Overfitting (Quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản và không bắt được các mẫu trong dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện có quá nhiều giá trị thiếu.
D. Mô hình không thể xử lý được dữ liệu phi cấu trúc.
15. Khái niệm Bias-Variance Tradeoff (Đánh đổi giữa độ chệch và phương sai) trong Khoa học dữ liệu liên quan đến việc cân bằng giữa:
A. Tốc độ xử lý và chi phí lưu trữ.
B. Độ chính xác của mô hình trên dữ liệu huấn luyện và khả năng tổng quát hóa trên dữ liệu mới.
C. Số lượng đặc trưng và số lượng mẫu.
D. Tính dễ hiểu của mô hình và độ phức tạp của thuật toán.
16. Loại dữ liệu nào sau đây thường được coi là có cấu trúc (structured data) và dễ dàng xử lý bằng các hệ quản trị cơ sở dữ liệu truyền thống?
A. Nội dung các bài đăng trên mạng xã hội.
B. Tệp văn bản (.txt) chứa các báo cáo.
C. Dữ liệu trong bảng của cơ sở dữ liệu quan hệ (ví dụ: tên, tuổi, địa chỉ).
D. Các tệp âm thanh và video.
17. Mục tiêu của Data Preprocessing (Tiền xử lý dữ liệu) trong Khoa học dữ liệu là gì?
A. Trực quan hóa kết quả cuối cùng của mô hình.
B. Tăng cường chất lượng, định dạng và cấu trúc của dữ liệu để sẵn sàng cho phân tích.
C. Xây dựng các thuật toán học máy mới.
D. Đánh giá chi phí của việc lưu trữ dữ liệu.
18. Trong ngữ cảnh Khoa học dữ liệu, khái niệm Big Data thường được đặc trưng bởi những thuộc tính nào, theo mô hình Vs phổ biến?
A. Volume (Khối lượng), Velocity (Tốc độ), Variety (Đa dạng), Veracity (Tính xác thực), Value (Giá trị).
B. Volume (Khối lượng), Velocity (Tốc độ), Variety (Đa dạng), Vitality (Sức sống), Vision (Tầm nhìn).
C. Volume (Khối lượng), Velocity (Tốc độ), Versatility (Tính linh hoạt), Veracity (Tính xác thực), Value (Giá trị).
D. Volume (Khối lượng), Velocity (Tốc độ), Variety (Đa dạng), Validity (Tính hợp lệ), Value (Giá trị).
19. Khi phân tích dữ liệu theo thời gian (time series analysis) trong Khoa học dữ liệu, biểu đồ nào sau đây là phù hợp nhất để quan sát xu hướng và tính mùa vụ?
A. Biểu đồ tròn (Pie chart).
B. Biểu đồ phân tán (Scatter plot).
C. Biểu đồ đường (Line chart).
D. Biểu đồ cột (Bar chart).
20. Loại dữ liệu nào thường được phân loại là Dữ liệu phi cấu trúc (Unstructured Data)?
A. Bảng tính Excel với các cột được định nghĩa rõ ràng.
B. Tệp CSV chứa dữ liệu người dùng.
C. Nội dung email và các tệp PDF.
D. Dữ liệu trong các bảng SQL.
21. Mục tiêu chính của giai đoạn Exploratory Data Analysis (Phân tích khám phá dữ liệu) trong Khoa học dữ liệu là gì?
A. Xây dựng và triển khai mô hình học máy cuối cùng.
B. Trình bày kết quả phân tích cho các bên liên quan.
C. Hiểu rõ cấu trúc, đặc điểm, mối quan hệ và các mẫu ẩn trong dữ liệu.
D. Tối ưu hóa hiệu suất của thuật toán đã chọn.
22. Trong Khoa học dữ liệu, Data Mining (Khai phá dữ liệu) và Machine Learning (Học máy) có mối quan hệ như thế nào?
A. Machine Learning là một tập con của Data Mining.
B. Data Mining là một tập con của Machine Learning.
C. Chúng là hai lĩnh vực hoàn toàn độc lập, không liên quan.
D. Data Mining tập trung vào việc thu thập dữ liệu, còn Machine Learning tập trung vào việc lưu trữ.
23. Khi nói về Feature Engineering trong Khoa học dữ liệu, hoạt động nào là cốt lõi?
A. Xóa bỏ hoàn toàn các đặc trưng không liên quan đến mục tiêu.
B. Tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Đánh giá độ chính xác của mô hình sau khi huấn luyện.
D. Chuẩn bị báo cáo cuối cùng về kết quả phân tích.
24. Trong Khoa học dữ liệu, một Outlier (Giá trị ngoại lai) là gì?
A. Một giá trị trung bình của tập dữ liệu.
B. Một giá trị nằm trong phạm vi phân phối chuẩn của dữ liệu.
C. Một điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Một giá trị bị thiếu trong tập dữ liệu.
25. Trong Khoa học dữ liệu, nếu một mô hình có độ chính xác cao trên dữ liệu huấn luyện nhưng lại có độ chính xác thấp trên dữ liệu kiểm tra, điều này thường chỉ ra vấn đề gì?
A. Mô hình bị Underfitting (Thiếu khớp).
B. Dữ liệu kiểm tra không đại diện cho dữ liệu thực tế.
C. Mô hình bị Overfitting (Quá khớp).
D. Thuật toán được sử dụng là không phù hợp.