Đề 9 – Đề thi, câu hỏi trắc nghiệm online Dữ liệu lớn (BigData)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Dữ liệu lớn (BigData)

Đề 9 - Đề thi, câu hỏi trắc nghiệm online Dữ liệu lớn (BigData)

1. Yếu tố nào sau đây KHÔNG phải là một trong `5 Vs` thường được dùng để mô tả Big Data?

A. Velocity (Tốc độ)
B. Veracity (Độ tin cậy)
C. Variety (Đa dạng)
D. Visibility (Khả năng hiển thị)

2. Trong Big Data, thuật ngữ `A/B testing` (thử nghiệm A/B) thường được sử dụng để làm gì?

A. Để kiểm tra hiệu suất của các thuật toán nén dữ liệu.
B. Để so sánh hai phiên bản khác nhau của một trang web, ứng dụng hoặc chiến dịch marketing để xem phiên bản nào hoạt động tốt hơn.
C. Để kiểm tra tính bảo mật của dữ liệu.
D. Để kiểm tra tính tương thích của các công cụ Big Data khác nhau.

3. Trong Big Data, thuật ngữ `data wrangling` (xử lý dữ liệu) đề cập đến điều gì?

A. Quá trình truyền dữ liệu từ các nguồn khác nhau vào một hệ thống.
B. Quá trình làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
C. Quá trình lưu trữ dữ liệu một cách an toàn.
D. Quá trình tạo ra các mô hình học máy.

4. Trong ngữ cảnh Big Data, đặc điểm `Volume` đề cập đến điều gì?

A. Sự đa dạng của các loại dữ liệu khác nhau.
B. Tốc độ tạo và xử lý dữ liệu.
C. Độ tin cậy và chính xác của dữ liệu.
D. Khối lượng dữ liệu cực lớn.

5. Ưu điểm chính của việc sử dụng NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong Big Data là gì?

A. NoSQL đảm bảo tính toàn vẹn ACID tốt hơn.
B. NoSQL có khả năng mở rộng theo chiều ngang (horizontally scalable) tốt hơn.
C. NoSQL hỗ trợ các truy vấn SQL phức tạp hơn.
D. NoSQL có giao diện người dùng thân thiện hơn.

6. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn trực tuyến (web scraping) cho Big Data?

A. Tableau
B. Scrapy
C. HBase
D. Pig

7. Vấn đề lớn nhất mà Big Data đặt ra cho các tổ chức liên quan đến quyền riêng tư là gì?

A. Chi phí lưu trữ dữ liệu quá cao.
B. Khó khăn trong việc tuyển dụng nhân viên có kỹ năng phù hợp.
C. Khả năng thu thập và phân tích thông tin cá nhân một cách chi tiết mà không có sự đồng ý rõ ràng.
D. Tốc độ xử lý dữ liệu quá chậm.

8. Trong ngữ cảnh Big Data, `data governance` (quản trị dữ liệu) đề cập đến điều gì?

A. Quá trình mã hóa dữ liệu để bảo mật.
B. Tập hợp các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính toàn vẹn và bảo mật của dữ liệu.
C. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
D. Quá trình trực quan hóa dữ liệu.

9. Khi nào thì việc sử dụng kiến trúc Lambda (Lambda architecture) là phù hợp?

A. Khi chỉ cần xử lý dữ liệu batch.
B. Khi cần cả xử lý dữ liệu batch và stream để đảm bảo tính chính xác và độ trễ thấp.
C. Khi chỉ cần xử lý dữ liệu stream.
D. Khi không có yêu cầu về độ tin cậy của dữ liệu.

10. Trong Big Data, `data lineage` (dòng dõi dữ liệu) đề cập đến điều gì?

A. Quá trình mã hóa dữ liệu để bảo mật.
B. Quá trình theo dõi nguồn gốc, chuyển đổi và luồng dữ liệu từ khi nó được tạo ra đến khi nó được sử dụng.
C. Quá trình nén dữ liệu để tiết kiệm không gian lưu trữ.
D. Quá trình trực quan hóa dữ liệu.

11. Trong bối cảnh Big Data, `feature engineering` (kỹ thuật đặc trưng) là gì?

A. Quá trình lựa chọn phần cứng phù hợp cho việc xử lý dữ liệu.
B. Quá trình tạo ra các đặc trưng mới từ dữ liệu hiện có để cải thiện hiệu suất của các mô hình học máy.
C. Quá trình mã hóa dữ liệu để bảo mật.
D. Quá trình trực quan hóa dữ liệu.

12. Công cụ nào sau đây thường được sử dụng để quản lý cluster Hadoop?

A. Kafka
B. YARN (Yet Another Resource Negotiator)
C. HBase
D. Pig

13. Một trong những thách thức chính của việc sử dụng Big Data trong lĩnh vực tài chính là gì?

A. Thiếu dữ liệu lịch sử.
B. Sự biến động cao của dữ liệu và yêu cầu về thời gian thực.
C. Chi phí lưu trữ dữ liệu quá thấp.
D. Khó khăn trong việc tuyển dụng nhân viên không có kỹ năng phù hợp.

14. Thuật ngữ `data mining` (khai thác dữ liệu) trong Big Data đề cập đến điều gì?

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình làm sạch và chuẩn hóa dữ liệu.
C. Quá trình khám phá các mẫu, xu hướng và thông tin hữu ích từ lượng lớn dữ liệu.
D. Quá trình bảo mật dữ liệu.

15. Công cụ nào sau đây thường được sử dụng để quản lý và điều phối các công việc (workflows) trong Hadoop?

A. Flume
B. Sqoop
C. Oozie
D. Kafka

16. Một trong những lợi ích chính của việc sử dụng điện toán đám mây (cloud computing) cho Big Data là gì?

A. Giảm chi phí phần cứng và cơ sở hạ tầng.
B. Tăng cường bảo mật dữ liệu.
C. Tăng tốc độ xử lý dữ liệu.
D. Đơn giản hóa việc quản lý dữ liệu.

17. Trong Big Data, thuật ngữ `data federation` (liên kết dữ liệu) đề cập đến điều gì?

A. Quá trình sao chép dữ liệu từ nhiều nguồn vào một kho lưu trữ duy nhất.
B. Quá trình truy cập và kết hợp dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.
C. Quá trình mã hóa dữ liệu để bảo mật.
D. Quá trình trực quan hóa dữ liệu.

18. Công cụ nào sau đây được sử dụng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?

A. Flume
B. Sqoop
C. Kafka
D. ZooKeeper

19. Trong Big Data, thuật ngữ `schema-on-read` có nghĩa là gì?

A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được lưu trữ.
B. Cấu trúc dữ liệu được xác định khi dữ liệu được đọc và phân tích.
C. Dữ liệu phải tuân thủ một lược đồ (schema) duy nhất.
D. Lược đồ (schema) dữ liệu không quan trọng.

20. Hệ thống nào sau đây được thiết kế để xử lý dữ liệu theo thời gian thực (real-time data processing) trong Big Data?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. Hive
D. Pig

21. Spark khác biệt so với Hadoop MapReduce chủ yếu ở điểm nào?

A. Spark hỗ trợ nhiều ngôn ngữ lập trình hơn.
B. Spark nhanh hơn do sử dụng bộ nhớ trong (in-memory processing).
C. Spark có khả năng xử lý dữ liệu theo thời gian thực tốt hơn.
D. Tất cả các đáp án trên.

22. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích log dữ liệu (log data) trong Big Data?

A. Tableau
B. Splunk
C. HBase
D. Pig

23. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu Big Data?

A. Sqoop
B. Flume
C. Tableau
D. Oozie

24. Hadoop chủ yếu được thiết kế để giải quyết vấn đề nào trong Big Data?

A. Bảo mật dữ liệu.
B. Lưu trữ và xử lý dữ liệu phân tán trên các cluster lớn.
C. Trực quan hóa dữ liệu.
D. Kết nối dữ liệu từ các nguồn khác nhau.

25. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của Big Data?

A. Phân tích dự đoán trong bán lẻ.
B. Tối ưu hóa chuỗi cung ứng.
C. Phát triển phần mềm nhúng (embedded software).
D. Phát hiện gian lận trong tài chính.

26. Trong Big Data, thuật ngữ `data lake` (hồ dữ liệu) dùng để chỉ điều gì?

A. Một kho lưu trữ dữ liệu đã được làm sạch và chuyển đổi để phân tích.
B. Một kho lưu trữ dữ liệu thô ở định dạng tự nhiên của nó cho đến khi cần thiết.
C. Một hệ thống quản lý cơ sở dữ liệu quan hệ.
D. Một công cụ trực quan hóa dữ liệu.

27. Trong ngữ cảnh Big Data và Machine Learning, kỹ thuật nào giúp giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng?

A. Data Mining
B. Dimensionality Reduction
C. Data Wrangling
D. Data Enrichment

28. Tại sao việc lấy mẫu dữ liệu (data sampling) lại quan trọng trong Big Data?

A. Để tăng độ chính xác của dữ liệu.
B. Để giảm chi phí lưu trữ dữ liệu.
C. Để giảm thời gian xử lý và phân tích dữ liệu.
D. Để đảm bảo tính bảo mật của dữ liệu.

29. Trong Big Data, `data enrichment` (làm giàu dữ liệu) là gì?

A. Quá trình nén dữ liệu để tiết kiệm không gian lưu trữ.
B. Quá trình thêm thông tin bổ sung vào dữ liệu hiện có để tăng giá trị và ý nghĩa của nó.
C. Quá trình mã hóa dữ liệu để bảo mật.
D. Quá trình trực quan hóa dữ liệu.

30. Một thách thức lớn trong việc áp dụng Big Data vào lĩnh vực y tế là gì?

A. Thiếu công cụ phân tích dữ liệu phù hợp.
B. Chi phí lưu trữ dữ liệu quá cao.
C. Các quy định nghiêm ngặt về bảo mật và quyền riêng tư của dữ liệu bệnh nhân.
D. Khó khăn trong việc thu thập dữ liệu từ các thiết bị y tế.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

1. Yếu tố nào sau đây KHÔNG phải là một trong '5 Vs' thường được dùng để mô tả Big Data?

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

2. Trong Big Data, thuật ngữ 'A/B testing' (thử nghiệm A/B) thường được sử dụng để làm gì?

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

3. Trong Big Data, thuật ngữ 'data wrangling' (xử lý dữ liệu) đề cập đến điều gì?

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

4. Trong ngữ cảnh Big Data, đặc điểm 'Volume' đề cập đến điều gì?

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

5. Ưu điểm chính của việc sử dụng NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong Big Data là gì?

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

6. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn trực tuyến (web scraping) cho Big Data?

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

7. Vấn đề lớn nhất mà Big Data đặt ra cho các tổ chức liên quan đến quyền riêng tư là gì?

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

8. Trong ngữ cảnh Big Data, 'data governance' (quản trị dữ liệu) đề cập đến điều gì?

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

9. Khi nào thì việc sử dụng kiến trúc Lambda (Lambda architecture) là phù hợp?

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

10. Trong Big Data, 'data lineage' (dòng dõi dữ liệu) đề cập đến điều gì?

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

11. Trong bối cảnh Big Data, 'feature engineering' (kỹ thuật đặc trưng) là gì?

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

12. Công cụ nào sau đây thường được sử dụng để quản lý cluster Hadoop?

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

13. Một trong những thách thức chính của việc sử dụng Big Data trong lĩnh vực tài chính là gì?

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

14. Thuật ngữ 'data mining' (khai thác dữ liệu) trong Big Data đề cập đến điều gì?

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

15. Công cụ nào sau đây thường được sử dụng để quản lý và điều phối các công việc (workflows) trong Hadoop?

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

16. Một trong những lợi ích chính của việc sử dụng điện toán đám mây (cloud computing) cho Big Data là gì?

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

17. Trong Big Data, thuật ngữ 'data federation' (liên kết dữ liệu) đề cập đến điều gì?

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

18. Công cụ nào sau đây được sử dụng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

19. Trong Big Data, thuật ngữ 'schema-on-read' có nghĩa là gì?

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

20. Hệ thống nào sau đây được thiết kế để xử lý dữ liệu theo thời gian thực (real-time data processing) trong Big Data?

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

21. Spark khác biệt so với Hadoop MapReduce chủ yếu ở điểm nào?

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

22. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích log dữ liệu (log data) trong Big Data?

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

23. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu Big Data?

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

24. Hadoop chủ yếu được thiết kế để giải quyết vấn đề nào trong Big Data?

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

25. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của Big Data?

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

26. Trong Big Data, thuật ngữ 'data lake' (hồ dữ liệu) dùng để chỉ điều gì?

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

27. Trong ngữ cảnh Big Data và Machine Learning, kỹ thuật nào giúp giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng?

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

28. Tại sao việc lấy mẫu dữ liệu (data sampling) lại quan trọng trong Big Data?

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

29. Trong Big Data, 'data enrichment' (làm giàu dữ liệu) là gì?

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 9

30. Một thách thức lớn trong việc áp dụng Big Data vào lĩnh vực y tế là gì?