1. Phân tích chúng ta nên làm gì thuộc loại phân tích nào?
A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích dự đoán (Predictive Analytics)
C. Phân tích chẩn đoán (Diagnostic Analytics)
D. Phân tích quy định (Prescriptive Analytics)
2. Ngành nào sau đây KHÔNG phải là thành phần cốt lõi của Khoa học dữ liệu theo định nghĩa phổ biến?
A. Toán học và Thống kê
B. Khoa học máy tính và Lập trình
C. Phân tích dữ liệu và Trực quan hóa
D. Thiết kế đồ họa và Mỹ thuật ứng dụng
3. Một nhà khoa học dữ liệu (Data Scientist) có vai trò chính là gì?
A. Chỉ tập trung vào việc nhập liệu và sắp xếp dữ liệu.
B. Chuyên viên phát triển ứng dụng di động.
C. Phân tích dữ liệu phức tạp, xây dựng mô hình dự đoán và truyền đạt kết quả cho các bên liên quan.
D. Quản lý hạ tầng mạng và máy chủ.
4. Phân tích tại sao điều đó xảy ra thuộc loại phân tích nào trong Khoa học dữ liệu?
A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích chẩn đoán (Diagnostic Analytics)
C. Phân tích dự đoán (Predictive Analytics)
D. Phân tích quy định (Prescriptive Analytics)
5. Quá trình làm việc với dữ liệu trong Khoa học dữ liệu thường bắt đầu bằng bước nào?
A. Xây dựng mô hình dự đoán
B. Trực quan hóa kết quả
C. Thu thập và làm sạch dữ liệu
D. Triển khai mô hình trên sản phẩm
6. Câu hỏi Làm thế nào để tối ưu hóa lộ trình giao hàng? thuộc loại phân tích nào?
A. Phân tích mô tả
B. Phân tích chẩn đoán
C. Phân tích dự đoán
D. Phân tích quy định
7. Trong Khoa học dữ liệu, trực quan hóa dữ liệu (data visualization) có vai trò gì quan trọng nhất?
A. Lưu trữ dữ liệu an toàn hơn.
B. Tăng tốc độ xử lý dữ liệu.
C. Giúp con người dễ dàng hiểu và diễn giải các mẫu, xu hướng phức tạp trong dữ liệu.
D. Tự động hóa hoàn toàn quá trình phân tích.
8. Việc làm sạch dữ liệu (data cleaning) trong Khoa học dữ liệu bao gồm những hoạt động chính nào?
A. Phát triển thuật toán học máy mới.
B. Xử lý các giá trị bị thiếu, dữ liệu trùng lặp, và định dạng không nhất quán.
C. Trực quan hóa xu hướng thị trường.
D. Tạo báo cáo tổng hợp.
9. Mô hình nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như dự đoán giá nhà?
A. Mô hình phân loại (Classification Models)
B. Mô hình hồi quy (Regression Models)
C. Mô hình phân cụm (Clustering Models)
D. Mô hình cây quyết định (Decision Tree Models - có thể dùng cho cả hai)
10. Trong Khoa học dữ liệu, hàm mục tiêu (objective function) hoặc hàm mất mát (loss function) được sử dụng để làm gì?
A. Đo lường hiệu quả của mô hình và hướng dẫn quá trình tối ưu hóa.
B. Tạo ra dữ liệu huấn luyện mới.
C. Trực quan hóa kết quả dự đoán.
D. Xác định các đặc trưng quan trọng nhất.
11. Một ví dụ về ứng dụng của Khoa học dữ liệu trong lĩnh vực y tế là gì?
A. Thiết kế giao diện cho các ứng dụng hẹn giờ khám bệnh.
B. Phân tích hình ảnh y tế (X-quang, MRI) để phát hiện bệnh sớm.
C. Quản lý hồ sơ bệnh án điện tử.
D. Xây dựng website giới thiệu bệnh viện.
12. Loại phân tích nào giúp trả lời câu hỏi điều gì có thể xảy ra trong tương lai?
A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích chẩn đoán (Diagnostic Analytics)
C. Phân tích dự đoán (Predictive Analytics)
D. Phân tích quy định (Prescriptive Analytics)
13. Khái niệm dữ liệu phi cấu trúc (unstructured data) bao gồm những loại dữ liệu nào?
A. Các bảng tính Excel
B. Các tệp CSV
C. Văn bản, hình ảnh, âm thanh, video
D. Dữ liệu từ các cảm biến IoT có định dạng rõ ràng
14. Thư viện nào sau đây rất phổ biến trong Python để thực hiện các phép tính số học và thao tác mảng, rất hữu ích trong Khoa học dữ liệu?
A. Matplotlib
B. Pandas
C. NumPy
D. Scikit-learn
15. Đâu là một trong những mục tiêu cốt lõi của Khoa học dữ liệu?
A. Tăng cường bảo mật cho các hệ thống máy tính.
B. Phát triển các thuật toán tìm kiếm trên Internet.
C. Khám phá các mẫu, xu hướng và hiểu biết sâu sắc từ dữ liệu để hỗ trợ ra quyết định.
D. Thiết kế giao diện người dùng thân thiện cho các ứng dụng.
16. Thư viện nào trong Python thường được sử dụng để trực quan hóa dữ liệu bằng các biểu đồ đa dạng?
A. NumPy
B. Pandas
C. Scikit-learn
D. Matplotlib (hoặc Seaborn)
17. Trong lĩnh vực tài chính, Khoa học dữ liệu có thể được sử dụng để làm gì?
A. Thiết kế website ngân hàng.
B. Phân tích giao dịch để phát hiện gian lận và dự đoán biến động thị trường.
C. Tạo các chiến dịch quảng cáo sản phẩm tài chính.
D. Quản lý nhân sự trong các tổ chức tài chính.
18. Khái niệm Khoa học dữ liệu (Data Science) có thể được mô tả chính xác nhất như thế nào?
A. Một lĩnh vực tập trung vào việc phát triển phần mềm và ứng dụng web.
B. Một lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, thuật toán và hệ thống để trích xuất kiến thức và hiểu biết từ dữ liệu có cấu trúc và phi cấu trúc.
C. Một phương pháp để tạo ra các mô hình học máy đơn giản từ dữ liệu đã được xử lý.
D. Một công cụ để trực quan hóa dữ liệu mà không cần phân tích sâu.
19. Loại mô hình nào thường được sử dụng để phân loại dữ liệu, ví dụ như xác định email là spam hay không spam?
A. Mô hình hồi quy (Regression Models)
B. Mô hình phân cụm (Clustering Models)
C. Mô hình phân loại (Classification Models)
D. Mô hình giảm chiều dữ liệu (Dimensionality Reduction Models)
20. Công cụ hoặc ngôn ngữ lập trình nào sau đây được sử dụng phổ biến trong Khoa học dữ liệu?
A. HTML
B. CSS
C. Python
D. JavaScript (chủ yếu cho frontend)
21. Trong Khoa học dữ liệu, dữ liệu có cấu trúc (structured data) thường được lưu trữ và quản lý dưới dạng nào?
A. Tệp văn bản thuần túy (plain text files)
B. Các bảng trong cơ sở dữ liệu quan hệ (ví dụ: SQL)
C. Tệp âm thanh (audio files)
D. Tệp hình ảnh (image files)
22. Tại sao việc khám phá dữ liệu (data exploration) lại quan trọng trong Khoa học dữ liệu?
A. Để tăng kích thước của tập dữ liệu.
B. Để xác định các vấn đề tiềm ẩn, hiểu cấu trúc dữ liệu và gợi ý các phương pháp phân tích phù hợp.
C. Để thay thế hoàn toàn việc làm sạch dữ liệu.
D. Để viết mã nguồn cho mô hình học máy.
23. Loại phân tích nào sau đây mô tả điều gì đã xảy ra trong dữ liệu?
A. Phân tích dự đoán (Predictive Analytics)
B. Phân tích quy định (Prescriptive Analytics)
C. Phân tích mô tả (Descriptive Analytics)
D. Phân tích chẩn đoán (Diagnostic Analytics)
24. Thuật ngữ Big Data (Dữ liệu lớn) thường đề cập đến các tập dữ liệu có đặc điểm gì?
A. Nhỏ, dễ quản lý và phân tích trên một máy tính cá nhân.
B. Có khối lượng (Volume), tốc độ (Velocity) và sự đa dạng (Variety) cao, đòi hỏi các công nghệ xử lý đặc biệt.
C. Chỉ bao gồm dữ liệu có cấu trúc từ cơ sở dữ liệu.
D. Luôn luôn là dữ liệu văn bản.
25. Thư viện nào trong Python thường được sử dụng để xử lý và phân tích dữ liệu dạng bảng (như đọc file CSV, thao tác với DataFrame)?
A. NumPy
B. SciPy
C. Pandas
D. Seaborn