1. Data Lake khác biệt với Data Warehouse như thế nào?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc.
B. Data Warehouse lưu trữ dữ liệu ở định dạng thô, chưa qua xử lý.
C. Data Lake lưu trữ dữ liệu ở định dạng thô, chưa qua xử lý, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và chuyển đổi.
D. Data Warehouse có khả năng mở rộng tốt hơn Data Lake.
2. Hadoop chủ yếu được sử dụng để giải quyết vấn đề nào trong Big Data?
A. Đảm bảo tính bảo mật của dữ liệu.
B. Xử lý và lưu trữ dữ liệu có cấu trúc.
C. Xử lý và lưu trữ lượng lớn dữ liệu phi cấu trúc và bán cấu trúc.
D. Trực quan hóa dữ liệu.
3. Trong mô hình 5V của Big Data, `Value` đề cập đến yếu tố nào?
A. Kích thước của dữ liệu.
B. Tốc độ xử lý dữ liệu.
C. Sự đa dạng của dữ liệu.
D. Giá trị kinh tế hoặc thông tin có thể khai thác từ dữ liệu.
4. Yếu tố nào sau đây quan trọng nhất để đảm bảo thành công của một dự án Big Data?
A. Sử dụng công nghệ mới nhất.
B. Có một đội ngũ chuyên gia dữ liệu giàu kinh nghiệm và hiểu rõ về mục tiêu kinh doanh.
C. Thu thập càng nhiều dữ liệu càng tốt.
D. Giảm chi phí lưu trữ dữ liệu.
5. Đặc tính `Veracity` trong Big Data liên quan đến điều gì?
A. Khả năng mở rộng của hệ thống lưu trữ dữ liệu.
B. Tốc độ truy cập vào dữ liệu.
C. Độ chính xác, tin cậy và chất lượng của dữ liệu.
D. Sự đa dạng của các nguồn dữ liệu.
6. Vai trò của Data Scientist trong dự án Big Data là gì?
A. Quản lý cơ sở hạ tầng mạng.
B. Xây dựng và triển khai các mô hình phân tích dữ liệu.
C. Thiết kế giao diện người dùng.
D. Viết tài liệu hướng dẫn sử dụng.
7. Đặc tính `Variety` trong Big Data đề cập đến khía cạnh nào?
A. Kích thước tổng thể của tập dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra.
C. Sự đa dạng của các loại và định dạng dữ liệu.
D. Giá trị thông tin có thể trích xuất từ dữ liệu.
8. Kỹ thuật `feature engineering` trong machine learning liên quan đến việc gì?
A. Chọn thuật toán machine learning phù hợp.
B. Chuyển đổi và lựa chọn các thuộc tính dữ liệu để cải thiện hiệu suất mô hình.
C. Tối ưu hóa phần cứng.
D. Bảo mật dữ liệu.
9. Thách thức lớn nhất khi làm việc với Big Data là gì?
A. Tìm kiếm đủ dữ liệu.
B. Lưu trữ dữ liệu trên các thiết bị cá nhân.
C. Xử lý, lưu trữ và phân tích lượng lớn dữ liệu một cách hiệu quả.
D. Giới hạn truy cập vào dữ liệu.
10. Trong ngữ cảnh Big Data, thuật ngữ `Volume` đề cập đến yếu tố nào?
A. Số lượng nguồn dữ liệu khác nhau.
B. Tốc độ tạo và xử lý dữ liệu.
C. Độ chính xác và tin cậy của dữ liệu.
D. Kích thước của dữ liệu được tạo và lưu trữ.
11. Data mining (khai thác dữ liệu) là gì trong ngữ cảnh Big Data?
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp.
C. Quá trình khám phá các mẫu, xu hướng và thông tin hữu ích từ lượng lớn dữ liệu.
D. Quá trình bảo mật dữ liệu.
12. Phương pháp nào sau đây giúp cải thiện hiệu suất truy vấn trong Big Data?
A. Lưu trữ tất cả dữ liệu trên một máy tính duy nhất.
B. Sử dụng các chỉ mục (indexes) để tăng tốc độ tìm kiếm.
C. Xóa bỏ dữ liệu cũ.
D. Giảm số lượng người dùng truy cập dữ liệu.
13. Trong ngữ cảnh Big Data, `scalability` có nghĩa là gì?
A. Khả năng bảo mật dữ liệu.
B. Khả năng mở rộng hệ thống để xử lý lượng dữ liệu tăng lên.
C. Khả năng giảm chi phí lưu trữ dữ liệu.
D. Khả năng trực quan hóa dữ liệu.
14. Mục tiêu chính của Data Governance trong Big Data là gì?
A. Tăng tốc độ xử lý dữ liệu.
B. Đảm bảo chất lượng, bảo mật và tuân thủ các quy định về dữ liệu.
C. Giảm chi phí lưu trữ dữ liệu.
D. Đơn giản hóa quy trình thu thập dữ liệu.
15. Phương pháp tiếp cận nào sau đây giúp giảm thiểu rủi ro về quyền riêng tư khi làm việc với dữ liệu cá nhân trong Big Data?
A. Thu thập càng nhiều dữ liệu cá nhân càng tốt.
B. Sử dụng kỹ thuật ẩn danh hóa (anonymization) hoặc giả danh hóa (pseudonymization) dữ liệu.
C. Chia sẻ dữ liệu cá nhân với tất cả các đối tác.
D. Bỏ qua các quy định về bảo vệ dữ liệu cá nhân.
16. Machine learning đóng vai trò gì trong Big Data?
A. Thay thế hoàn toàn con người trong quá trình phân tích dữ liệu.
B. Tự động hóa quá trình phân tích và dự đoán dựa trên dữ liệu.
C. Giảm kích thước của dữ liệu.
D. Bảo mật dữ liệu.
17. Spark khác biệt so với Hadoop MapReduce chủ yếu ở điểm nào?
A. Spark chỉ hỗ trợ dữ liệu có cấu trúc.
B. Spark nhanh hơn nhờ khả năng xử lý dữ liệu trong bộ nhớ.
C. Spark không thể xử lý dữ liệu thời gian thực.
D. Spark yêu cầu phần cứng đắt tiền hơn.
18. Trong bối cảnh Big Data, `Data wrangling` (hoặc `Data munging`) đề cập đến hoạt động nào?
A. Việc bảo mật dữ liệu khỏi các truy cập trái phép.
B. Việc thu thập dữ liệu từ các nguồn công cộng.
C. Việc làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
D. Việc trình bày dữ liệu dưới dạng đồ thị và biểu đồ.
19. Trong lĩnh vực bán lẻ, Big Data được sử dụng để làm gì?
A. Giảm số lượng nhân viên.
B. Cá nhân hóa trải nghiệm mua sắm và tối ưu hóa giá cả.
C. Tăng diện tích cửa hàng.
D. Giảm số lượng sản phẩm.
20. Ứng dụng nào sau đây không phải là một ứng dụng phổ biến của Big Data?
A. Phân tích rủi ro tài chính.
B. Tối ưu hóa chuỗi cung ứng.
C. Dự báo thời tiết.
D. Soạn thảo văn bản pháp luật.
21. Trong kiến trúc Lambda, lớp `speed layer` dùng để làm gì?
A. Xử lý dữ liệu lịch sử.
B. Xử lý dữ liệu thời gian thực.
C. Lưu trữ dữ liệu.
D. Trực quan hóa dữ liệu.
22. NoSQL database được sử dụng khi nào thay vì relational database (SQL)?
A. Khi cần đảm bảo tính toàn vẹn ACID (Atomicity, Consistency, Isolation, Durability).
B. Khi dữ liệu có cấu trúc rõ ràng và mối quan hệ phức tạp.
C. Khi cần xử lý lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc với tốc độ cao.
D. Khi yêu cầu bảo mật dữ liệu là ưu tiên hàng đầu.
23. Đặc tính `Velocity` trong Big Data mô tả yếu tố nào?
A. Sự đa dạng của các loại dữ liệu.
B. Tốc độ dữ liệu được tạo ra và xử lý.
C. Giá trị kinh tế tiềm năng của dữ liệu.
D. Độ tin cậy của nguồn dữ liệu.
24. Một trong những thách thức về đạo đức khi sử dụng Big Data là gì?
A. Giảm chi phí lưu trữ dữ liệu.
B. Đảm bảo quyền riêng tư và tránh phân biệt đối xử dựa trên dữ liệu.
C. Tăng tốc độ xử lý dữ liệu.
D. Đơn giản hóa quy trình thu thập dữ liệu.
25. Trong ngữ cảnh Big Data, ETL là viết tắt của cụm từ nào?
A. Extract, Transform, Load.
B. Evaluate, Test, Learn.
C. Encrypt, Transfer, Log.
D. Enter, Train, Launch.
26. Khi nào nên sử dụng kỹ thuật `data sampling` trong Big Data?
A. Khi cần phân tích toàn bộ dữ liệu.
B. Khi không có đủ tài nguyên để xử lý toàn bộ dữ liệu.
C. Khi cần tăng độ chính xác của dữ liệu.
D. Khi cần bảo mật dữ liệu.
27. Lợi ích chính của việc sử dụng Big Data analytics trong lĩnh vực y tế là gì?
A. Giảm chi phí quảng cáo.
B. Cải thiện khả năng dự đoán và phòng ngừa dịch bệnh.
C. Tăng số lượng bệnh nhân.
D. Đơn giản hóa quy trình hành chính.
28. Cloud computing có vai trò gì trong Big Data?
A. Loại bỏ hoàn toàn nhu cầu lưu trữ dữ liệu.
B. Cung cấp khả năng lưu trữ và xử lý dữ liệu linh hoạt, có khả năng mở rộng.
C. Giới hạn khả năng truy cập dữ liệu.
D. Thay thế hoàn toàn các công cụ Big Data truyền thống.
29. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu Big Data?
A. Microsoft Word.
B. Microsoft Excel.
C. Tableau.
D. Notepad.
30. Công cụ nào sau đây thường được sử dụng để quản lý và điều phối các công việc (jobs) trong Hadoop?
A. Microsoft Word.
B. Apache Oozie.
C. Microsoft Excel.
D. Notepad.