1. Khái niệm data governance (quản trị dữ liệu) liên quan đến những khía cạnh nào?
A. Chỉ liên quan đến việc lưu trữ dữ liệu.
B. Bao gồm các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, bảo mật và tuân thủ của dữ liệu.
C. Chỉ tập trung vào việc phân tích dữ liệu.
D. Liên quan đến việc thiết kế giao diện người dùng.
2. Đâu là một ví dụ về time series analysis (phân tích chuỗi thời gian)?
A. Phân loại hình ảnh sản phẩm.
B. Dự đoán doanh số bán hàng hàng ngày hoặc hàng tháng.
C. Nhóm các bài viết tin tức theo chủ đề.
D. Xác định xem một giao dịch có phải là gian lận hay không.
3. Đâu là một ví dụ về data mining (khai phá dữ liệu)?
A. Xóa các ký tự đặc biệt khỏi chuỗi văn bản.
B. Tìm kiếm các mối liên hệ ẩn hoặc mẫu hữu ích trong tập dữ liệu lớn.
C. Lưu trữ dữ liệu vào cơ sở dữ liệu quan hệ.
D. Thiết kế giao diện người dùng cho ứng dụng web.
4. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu trong khoa học dữ liệu?
A. Microsoft Word.
B. Tableau hoặc Matplotlib.
C. Adobe Photoshop.
D. Microsoft PowerPoint.
5. Đâu là một ví dụ về classification (phân loại) trong học máy?
A. Dự đoán số lượng khách hàng sẽ mua sản phẩm.
B. Nhóm các bài báo thành các chủ đề khác nhau.
C. Phân loại một email là quan trọng hay thư rác.
D. Dự đoán nhiệt độ ngày mai.
6. Quy trình xử lý dữ liệu trong khoa học dữ liệu thường bắt đầu bằng bước nào?
A. Xây dựng mô hình dự đoán.
B. Trực quan hóa dữ liệu.
C. Thu thập và làm sạch dữ liệu.
D. Đánh giá hiệu quả mô hình.
7. Trong khoa học dữ liệu, overfitting (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
D. Mô hình có độ phức tạp quá thấp so với dữ liệu.
8. Trong quá trình làm sạch dữ liệu, việc xử lý các giá trị bị thiếu (missing values) có thể bao gồm những phương pháp nào?
A. Chỉ xóa bỏ tất cả các hàng chứa giá trị thiếu.
B. Điền giá trị thiếu bằng giá trị trung bình, trung vị hoặc sử dụng các thuật toán dự đoán.
C. Chỉ giữ lại các cột có ít giá trị thiếu.
D. Báo cáo lỗi cho người cung cấp dữ liệu và dừng xử lý.
9. Thuật toán k-means clustering thuộc loại hình học máy nào?
A. Học có giám sát (Supervised Learning).
B. Học tăng cường (Reinforcement Learning).
C. Học không giám sát (Unsupervised Learning).
D. Học bán giám sát (Semi-supervised Learning).
10. Khái niệm data wrangling (sắp xếp dữ liệu) trong khoa học dữ liệu bao gồm những hoạt động nào?
A. Chỉ bao gồm việc thu thập dữ liệu từ các nguồn khác nhau.
B. Bao gồm việc làm sạch, biến đổi và tổ chức lại dữ liệu để sẵn sàng cho phân tích.
C. Chỉ tập trung vào việc tạo ra các biểu đồ và báo cáo.
D. Liên quan đến việc lựa chọn thuật toán học máy phù hợp.
11. Trong lĩnh vực tài chính, khoa học dữ liệu có thể được ứng dụng để làm gì?
A. Tự động hóa quy trình sản xuất.
B. Phân tích rủi ro tín dụng, phát hiện gian lận và dự báo thị trường.
C. Tối ưu hóa chuỗi cung ứng.
D. Phát triển các chiến dịch marketing mới.
12. Ngôn ngữ lập trình nào phổ biến nhất trong cộng đồng khoa học dữ liệu và học máy?
A. Java.
B. C++.
C. Python.
D. Visual Basic.
13. Trong lĩnh vực bán lẻ, khoa học dữ liệu được sử dụng để phân tích hành vi mua sắm của khách hàng nhằm mục đích gì?
A. Tăng cường bảo mật hệ thống thanh toán.
B. Cá nhân hóa khuyến mãi, đề xuất sản phẩm và tối ưu hóa tồn kho.
C. Phát triển các ứng dụng di động mới.
D. Quản lý nhân sự trong cửa hàng.
14. Trong học máy, thuật ngữ supervised learning (học có giám sát) ám chỉ loại hình học tập nào?
A. Mô hình học từ dữ liệu không có nhãn.
B. Mô hình học từ dữ liệu có nhãn (đầu vào và đầu ra mong muốn đã biết).
C. Mô hình tự khám phá cấu trúc và mẫu trong dữ liệu.
D. Mô hình học cách tương tác với môi trường để đạt mục tiêu.
15. Phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) có mục đích chính là gì?
A. Xây dựng mô hình học máy phức tạp.
B. Hiểu rõ hơn về đặc điểm, mối quan hệ và các mẫu tiềm ẩn trong dữ liệu.
C. Triển khai mô hình đã được huấn luyện vào môi trường thực tế.
D. Đánh giá độ chính xác của dữ liệu thô.
16. Đâu là một trong những ứng dụng chính của khoa học dữ liệu trong lĩnh vực y tế?
A. Phát triển các trò chơi điện tử giải trí.
B. Phân tích dữ liệu bệnh nhân để dự đoán dịch bệnh và cá nhân hóa điều trị.
C. Tạo nội dung quảng cáo trên mạng xã hội.
D. Thiết kế giao diện người dùng cho các ứng dụng di động.
17. Trong khoa học dữ liệu, thuật ngữ big data (dữ liệu lớn) thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây?
A. Dữ liệu có tốc độ xử lý chậm, kích thước nhỏ và tính đa dạng thấp.
B. Dữ liệu có tốc độ tạo ra cao, khối lượng lớn, tính đa dạng cao và yêu cầu xử lý phức tạp.
C. Dữ liệu có cấu trúc cố định, nguồn gốc duy nhất và dễ dàng phân tích bằng công cụ truyền thống.
D. Dữ liệu có độ tin cậy thấp, thông tin không chính xác và không cần thiết cho việc ra quyết định.
18. Khái niệm bias (thiên vị/sai lệch) trong mô hình học máy có thể đến từ đâu?
A. Chỉ đến từ việc sử dụng quá nhiều dữ liệu huấn luyện.
B. Có thể bắt nguồn từ dữ liệu huấn luyện không đại diện hoặc thiết kế thuật toán.
C. Chỉ xảy ra khi mô hình có quá ít tham số.
D. Không liên quan đến quá trình thu thập dữ liệu.
19. Thuật ngữ data pipeline (đường ống dữ liệu) trong khoa học dữ liệu đề cập đến điều gì?
A. Một công cụ duy nhất để phân tích dữ liệu.
B. Một quy trình tự động hóa việc thu thập, xử lý, biến đổi và lưu trữ dữ liệu.
C. Một phương pháp để trực quan hóa dữ liệu phức tạp.
D. Một kỹ thuật để mã hóa dữ liệu nhạy cảm.
20. Trong lĩnh vực truyền thông xã hội, khoa học dữ liệu được sử dụng để làm gì?
A. Tạo ra các bài đăng trên mạng xã hội.
B. Phân tích xu hướng, hiểu hành vi người dùng và cá nhân hóa nội dung quảng cáo.
C. Bảo vệ người dùng khỏi các cuộc tấn công mạng.
D. Tối ưu hóa hiệu suất của máy chủ.
21. Đâu là một ví dụ về regression (hồi quy) trong học máy?
A. Xác định xem một bức thư là thư rác hay không.
B. Phân nhóm các khách hàng có hành vi tương tự.
C. Dự đoán giá trị một biến liên tục, ví dụ: dự đoán giá cổ phiếu.
D. Nhận dạng đối tượng trong ảnh.
22. Trong khoa học dữ liệu, dimensionality reduction (giảm chiều dữ liệu) nhằm mục đích gì?
A. Tăng số lượng đặc trưng để mô hình phức tạp hơn.
B. Giảm số lượng đặc trưng trong khi vẫn giữ lại phần lớn thông tin quan trọng, giúp tăng tốc độ xử lý và tránh curse of dimensionality.
C. Chỉ loại bỏ các hàng dữ liệu trùng lặp.
D. Tăng cường độ chính xác của dữ liệu thô.
23. Mục tiêu của feature engineering (kỹ thuật đặc trưng) trong khoa học dữ liệu là gì?
A. Giảm thiểu kích thước của tập dữ liệu.
B. Tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Đánh giá mức độ tin cậy của dữ liệu.
D. Xóa bỏ các giá trị ngoại lai (outliers) khỏi dữ liệu.
24. Mục đích của việc model evaluation (đánh giá mô hình) là gì?
A. Tạo ra nhiều phiên bản khác nhau của mô hình.
B. Xác định hiệu suất và khả năng tổng quát hóa của mô hình trên dữ liệu mới.
C. Thu thập thêm dữ liệu cho quá trình huấn luyện.
D. Trực quan hóa kết quả của mô hình.
25. Đâu là một ví dụ về unsupervised learning (học không giám sát)?
A. Phân loại email là thư rác hoặc không phải thư rác.
B. Dự đoán giá nhà dựa trên các đặc điểm.
C. Phân cụm khách hàng dựa trên hành vi mua sắm.
D. Nhận dạng hình ảnh chó hoặc mèo.