1. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích dữ liệu luồng (streaming data) trong thời gian thực?
A. Hadoop
B. Spark Streaming
C. Hive
D. Pig
2. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu (data visualization) trong Big Data?
A. Hadoop
B. Spark
C. Tableau
D. Hive
3. Kỹ thuật `Data Wrangling` (Chuẩn bị dữ liệu) trong Big Data bao gồm những công việc gì?
A. Thu thập dữ liệu.
B. Lưu trữ dữ liệu.
C. Làm sạch, chuyển đổi và tích hợp dữ liệu.
D. Trực quan hóa dữ liệu.
4. Đâu là một thách thức kỹ thuật khi làm việc với Big Data?
A. Giá thành phần cứng rẻ.
B. Dễ dàng tìm kiếm nhân sự có kinh nghiệm.
C. Khả năng xử lý dữ liệu với tốc độ và quy mô lớn.
D. Sự đồng nhất của các định dạng dữ liệu.
5. Trong Big Data, kỹ thuật `Data Mining` (Khai phá dữ liệu) được sử dụng để làm gì?
A. Lưu trữ dữ liệu.
B. Truy vấn dữ liệu.
C. Tìm kiếm các mẫu và tri thức ẩn trong dữ liệu.
D. Trực quan hóa dữ liệu.
6. Đâu là một thách thức lớn trong việc xử lý Big Data liên quan đến quyền riêng tư và bảo mật?
A. Dung lượng lưu trữ lớn.
B. Tốc độ xử lý chậm.
C. Khả năng thu thập và phân tích dữ liệu cá nhân quy mô lớn.
D. Sự đa dạng của các định dạng dữ liệu.
7. Mô hình nào thường được sử dụng để xử lý dữ liệu lớn, đặc biệt là trong các ứng dụng phân tích nhật ký (log analysis)?
A. MapReduce
B. SQL
C. NoSQL
D. OLAP
8. Trong Big Data, `Real-time analytics` (Phân tích thời gian thực) có nghĩa là gì?
A. Phân tích dữ liệu lịch sử.
B. Phân tích dữ liệu sau khi đã được lưu trữ.
C. Phân tích dữ liệu ngay khi nó được tạo ra.
D. Phân tích dữ liệu ngẫu nhiên.
9. Công cụ nào sau đây **KHÔNG** phải là một hệ quản trị cơ sở dữ liệu NoSQL phổ biến?
A. MongoDB
B. Cassandra
C. HBase
D. MySQL
10. Trong Big Data, thuật ngữ `Data Silos` (Các kho dữ liệu riêng biệt) đề cập đến điều gì?
A. Dữ liệu được lưu trữ trên đám mây.
B. Dữ liệu được lưu trữ trong một cơ sở dữ liệu duy nhất.
C. Các bộ phận dữ liệu riêng biệt, khó truy cập và chia sẻ giữa các bộ phận khác nhau trong một tổ chức.
D. Dữ liệu được mã hóa.
11. Trong ngữ cảnh Big Data, thuật ngữ `Schema on Read` (Lược đồ khi đọc) có nghĩa là gì?
A. Cấu trúc dữ liệu được xác định trước khi dữ liệu được tải vào hệ thống.
B. Cấu trúc dữ liệu được xác định khi dữ liệu được truy vấn.
C. Cấu trúc dữ liệu được xác định bởi người quản trị cơ sở dữ liệu.
D. Cấu trúc dữ liệu được xác định ngẫu nhiên.
12. Trong Big Data, `Data Visualization` (Trực quan hóa dữ liệu) giúp ích gì?
A. Lưu trữ dữ liệu.
B. Truy vấn dữ liệu.
C. Hiểu và truyền đạt thông tin từ dữ liệu một cách trực quan và dễ dàng.
D. Mã hóa dữ liệu.
13. Trong Big Data, `In-memory computing` (Điện toán trong bộ nhớ) có nghĩa là gì?
A. Dữ liệu được lưu trữ trên ổ cứng.
B. Dữ liệu được xử lý trong bộ nhớ RAM thay vì trên ổ cứng, giúp tăng tốc độ xử lý.
C. Dữ liệu được lưu trữ trên đám mây.
D. Dữ liệu được mã hóa.
14. Trong Big Data, `Machine Learning` (Học máy) được sử dụng để làm gì?
A. Lưu trữ dữ liệu.
B. Truy vấn dữ liệu.
C. Xây dựng các mô hình dự đoán và phân tích dữ liệu tự động.
D. Trực quan hóa dữ liệu.
15. Đâu là một ứng dụng của Big Data trong lĩnh vực tài chính?
A. Sản xuất ô tô.
B. Dự báo thời tiết.
C. Phát hiện gian lận và đánh giá rủi ro tín dụng.
D. Quản lý năng lượng.
16. Thuật ngữ `Data Governance` (Quản trị dữ liệu) trong Big Data đề cập đến điều gì?
A. Việc lựa chọn công nghệ phù hợp để xử lý dữ liệu.
B. Việc quản lý và bảo đảm chất lượng, tính nhất quán và bảo mật của dữ liệu.
C. Việc trực quan hóa dữ liệu.
D. Việc thu thập dữ liệu từ nhiều nguồn khác nhau.
17. Đâu là một ví dụ về ứng dụng của Big Data trong lĩnh vực chăm sóc sức khỏe?
A. Quản lý kho hàng.
B. Phân tích hành vi khách hàng.
C. Dự đoán dịch bệnh và cải thiện kết quả điều trị.
D. Tối ưu hóa chuỗi cung ứng.
18. Trong Big Data, `Data Integration` (Tích hợp dữ liệu) có nghĩa là gì?
A. Lưu trữ dữ liệu.
B. Truy vấn dữ liệu.
C. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một dạng thống nhất.
D. Trực quan hóa dữ liệu.
19. Đâu là một ví dụ về ứng dụng của Big Data trong lĩnh vực bán lẻ?
A. Dự báo thời tiết.
B. Phân tích hành vi khách hàng và tối ưu hóa chiến lược marketing.
C. Quản lý năng lượng.
D. Sản xuất ô tô.
20. Trong kiến trúc Lambda, lớp `Speed Layer` (Lớp tốc độ) được sử dụng để làm gì?
A. Xử lý dữ liệu lịch sử.
B. Xử lý dữ liệu theo lô (batch processing).
C. Xử lý dữ liệu luồng (streaming data) trong thời gian thực.
D. Lưu trữ dữ liệu.
21. Trong Big Data, thuật ngữ `Scalability` (Khả năng mở rộng) có nghĩa là gì?
A. Khả năng xử lý dữ liệu nhanh chóng.
B. Khả năng lưu trữ dữ liệu lớn.
C. Khả năng hệ thống xử lý lượng dữ liệu tăng lên hoặc số lượng người dùng tăng lên một cách hiệu quả.
D. Khả năng bảo mật dữ liệu.
22. Đâu là đặc điểm **KHÔNG** thuộc về Big Data?
A. Velocity (Tốc độ)
B. Variety (Đa dạng)
C. Veracity (Độ tin cậy)
D. Volatility (Tính biến động)
23. YARN (Yet Another Resource Negotiator) là thành phần quan trọng trong hệ sinh thái Hadoop, chức năng chính của YARN là gì?
A. Lưu trữ dữ liệu phân tán.
B. Xử lý dữ liệu song song.
C. Quản lý tài nguyên và lập lịch công việc.
D. Truy vấn dữ liệu SQL.
24. Đâu là một trong những nguyên tắc quan trọng của `Data Governance` (Quản trị dữ liệu) trong Big Data?
A. Sử dụng càng nhiều công nghệ càng tốt.
B. Đảm bảo chất lượng, tính nhất quán và bảo mật của dữ liệu.
C. Lưu trữ tất cả dữ liệu, kể cả dữ liệu không cần thiết.
D. Không chia sẻ dữ liệu với ai.
25. Đâu là một lợi ích của việc sử dụng điện toán đám mây (cloud computing) cho các dự án Big Data?
A. Chi phí cao hơn.
B. Khả năng mở rộng hạn chế.
C. Khả năng truy cập tài nguyên linh hoạt và tiết kiệm chi phí.
D. Bảo mật kém hơn.
26. Trong Big Data, kỹ thuật `Dimensionality Reduction` (Giảm chiều dữ liệu) được sử dụng để làm gì?
A. Tăng kích thước dữ liệu.
B. Giảm số lượng thuộc tính (features) của dữ liệu để đơn giản hóa mô hình và giảm thời gian xử lý.
C. Tăng độ phức tạp của dữ liệu.
D. Mã hóa dữ liệu.
27. Đâu là một thách thức về mặt tổ chức khi triển khai các dự án Big Data?
A. Chi phí phần cứng thấp.
B. Thiếu sự hợp tác giữa các bộ phận và kỹ năng chuyên môn.
C. Dễ dàng tích hợp dữ liệu từ các nguồn khác nhau.
D. Các công cụ Big Data dễ sử dụng.
28. Khái niệm `Data Lake` (Hồ dữ liệu) khác biệt so với `Data Warehouse` (Kho dữ liệu) như thế nào?
A. Data Lake lưu trữ dữ liệu đã được xử lý và chuyển đổi, trong khi Data Warehouse lưu trữ dữ liệu thô.
B. Data Lake lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu phi cấu trúc.
C. Data Lake lưu trữ dữ liệu thô ở định dạng ban đầu, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và chuyển đổi.
D. Data Lake chỉ lưu trữ dữ liệu lịch sử, trong khi Data Warehouse lưu trữ dữ liệu hiện tại.
29. Đâu là một ứng dụng của Big Data trong lĩnh vực giao thông vận tải?
A. Phân tích hành vi khách hàng.
B. Quản lý năng lượng.
C. Tối ưu hóa lưu lượng giao thông và cải thiện an toàn.
D. Sản xuất ô tô.
30. Công cụ nào sau đây thường được sử dụng để thực hiện các truy vấn SQL trên dữ liệu được lưu trữ trong Hadoop?
A. Spark
B. Hive
C. Pig
D. MapReduce