Đề 8 - Đề thi, câu hỏi trắc nghiệm online Dữ liệu lớn (BigData)

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Dữ liệu lớn (BigData)

Đề 8 - Đề thi, câu hỏi trắc nghiệm online Dữ liệu lớn (BigData)

1. Kafka là một hệ thống message queue phân tán. Mục đích chính của việc sử dụng Kafka là gì?

A. Lưu trữ dữ liệu lịch sử.

B. Xử lý dữ liệu theo lô.

C. Truyền tải dữ liệu theo thời gian thực giữa các hệ thống.

D. Phân tích dữ liệu tương tác.

2. Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây cần được ưu tiên để đảm bảo khả năng mở rộng (scalability)?

A. Sử dụng một máy chủ duy nhất mạnh mẽ.

B. Phân tán dữ liệu và xử lý trên nhiều máy chủ.

C. Sử dụng cơ sở dữ liệu quan hệ truyền thống.

D. Tối ưu hóa cho các truy vấn cụ thể.

3. Trong kiến trúc Lambda, lớp Batch Layer có vai trò gì?

A. Xử lý dữ liệu theo thời gian thực.

B. Lưu trữ dữ liệu tạm thời.

C. Xử lý dữ liệu lịch sử theo lô.

D. Phục vụ các truy vấn tương tác.

4. Trong ngữ cảnh Big Data, `Data Lakehouse` kết hợp những ưu điểm của Data Lake và Data Warehouse như thế nào?

A. Chỉ lưu trữ dữ liệu có cấu trúc.

B. Hỗ trợ cả dữ liệu thô và dữ liệu đã được xử lý, đồng thời cung cấp khả năng truy vấn SQL.

C. Chỉ hỗ trợ xử lý dữ liệu theo thời gian thực.

D. Không hỗ trợ Machine Learning.

5. Trong Big Data, thuật ngữ `Schema on Read` liên quan đến cách tiếp cận nào trong xử lý dữ liệu?

A. Áp đặt cấu trúc dữ liệu trước khi lưu trữ.

B. Xác định cấu trúc dữ liệu khi truy vấn.

C. Tự động phát hiện cấu trúc dữ liệu.

D. Loại bỏ cấu trúc dữ liệu.

6. Trong Big Data, thuật ngữ `Data Silos` đề cập đến vấn đề gì?

A. Dữ liệu được lưu trữ một cách an toàn.

B. Dữ liệu bị phân mảnh và khó truy cập.

C. Dữ liệu được chuẩn hóa và dễ dàng tích hợp.

D. Dữ liệu được nén để tiết kiệm không gian lưu trữ.

7. Oozie là một hệ thống workflow scheduler trong hệ sinh thái Hadoop. Chức năng chính của Oozie là gì?

A. Quản lý tài nguyên cluster.

B. Lập lịch và điều phối các công việc (jobs) Hadoop.

C. Thu thập dữ liệu log.

D. Truy vấn dữ liệu SQL.

8. Thuật ngữ `Data Lake` khác biệt so với `Data Warehouse` như thế nào?

A. Data Lake lưu trữ dữ liệu đã được xử lý và có cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu thô.

B. Data Lake lưu trữ dữ liệu thô và có thể có cấu trúc hoặc phi cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.

C. Data Lake chỉ lưu trữ dữ liệu từ các nguồn bên ngoài, trong khi Data Warehouse lưu trữ dữ liệu từ các nguồn nội bộ.

D. Data Lake chỉ được sử dụng cho phân tích thời gian thực, trong khi Data Warehouse được sử dụng cho phân tích lịch sử.

9. Trong ngữ cảnh Big Data, `Data Mining` được hiểu là gì?

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.

B. Quá trình làm sạch và chuẩn hóa dữ liệu.

C. Quá trình khám phá các mẫu và thông tin hữu ích từ lượng lớn dữ liệu.

D. Quá trình bảo mật dữ liệu khỏi truy cập trái phép.

10. Công cụ nào sau đây thường được sử dụng để xây dựng các ứng dụng Machine Learning trên nền tảng Spark?

A. HDFS

B. MLlib

C. Hive

D. Kafka

11. Ưu điểm chính của việc sử dụng các định dạng dữ liệu cột (columnar data formats) như Parquet hoặc ORC trong Big Data là gì?

A. Tăng tốc độ ghi dữ liệu.

B. Giảm dung lượng lưu trữ và tăng tốc độ truy vấn.

C. Đơn giản hóa quá trình xử lý dữ liệu.

D. Tăng cường bảo mật dữ liệu.

12. Trong ngữ cảnh Big Data, `Data Streaming` đề cập đến điều gì?

A. Quá trình di chuyển dữ liệu giữa các hệ thống lưu trữ.

B. Quá trình xử lý dữ liệu liên tục khi nó được tạo ra.

C. Quá trình sao lưu dữ liệu.

D. Quá trình nén dữ liệu.

13. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop sử dụng cú pháp giống SQL?

A. Spark

B. Kafka

C. Hive

D. Flume

14. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn (Big Data)?

A. Sqoop

B. Tableau

C. Flume

D. Oozie

15. Khi nào nên sử dụng kiến trúc Kappa thay vì kiến trúc Lambda trong xử lý dữ liệu lớn?

A. Khi cần xử lý cả dữ liệu có cấu trúc và phi cấu trúc.

B. Khi cần đảm bảo tính nhất quán tuyệt đối của dữ liệu.

C. Khi có thể xử lý lại toàn bộ dữ liệu một cách hiệu quả.

D. Khi cần xử lý dữ liệu theo thời gian thực và theo lô.

16. YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong Hadoop 2.0. Vai trò chính của YARN là gì?

A. Lưu trữ dữ liệu phân tán.

B. Xử lý dữ liệu song song.

C. Quản lý và phân bổ tài nguyên cluster.

D. Truy vấn dữ liệu SQL.

17. Công cụ nào sau đây thường được sử dụng để chuyển dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?

A. Flume

B. Sqoop

C. Kafka

D. Oozie

18. Hadoop là một framework mã nguồn mở được sử dụng rộng rãi trong Big Data. Thành phần chính nào của Hadoop chịu trách nhiệm lưu trữ dữ liệu?

A. YARN (Yet Another Resource Negotiator)

B. MapReduce

C. HDFS (Hadoop Distributed File System)

D. Pig

19. Công nghệ nào sau đây được sử dụng để xử lý các luồng sự kiện phức tạp (Complex Event Processing - CEP) trong thời gian thực?

A. Hadoop MapReduce

B. Apache Flink

C. HDFS

D. Hive

20. Đâu là thách thức lớn nhất khi làm việc với dữ liệu lớn (Big Data)?

A. Dung lượng lưu trữ.

B. Tốc độ xử lý.

C. Độ phức tạp của dữ liệu.

D. Tất cả các đáp án trên.

21. Thuật ngữ `Dark Data` trong Big Data đề cập đến loại dữ liệu nào?

A. Dữ liệu đã được mã hóa.

B. Dữ liệu không được sử dụng hoặc phân tích.

C. Dữ liệu bị hỏng hoặc không chính xác.

D. Dữ liệu được lưu trữ trên đám mây.

22. Trong ngữ cảnh Big Data, `Data Governance` đề cập đến điều gì?

A. Quá trình mã hóa dữ liệu để bảo mật.

B. Quá trình quản lý và đảm bảo chất lượng, tính toàn vẹn và bảo mật của dữ liệu.

C. Quá trình trực quan hóa dữ liệu.

D. Quá trình thu thập dữ liệu từ các nguồn khác nhau.

23. Hadoop MapReduce hoạt động dựa trên nguyên tắc nào?

A. Chia để trị (Divide and Conquer).

B. Tìm kiếm theo chiều sâu (Depth-First Search).

C. Tìm kiếm theo chiều rộng (Breadth-First Search).

D. Quy hoạch động (Dynamic Programming).

24. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực (real-time processing)?

A. Batch Layer

B. Serving Layer

C. Speed Layer

D. Storage Layer

25. HBase là một hệ quản trị cơ sở dữ liệu NoSQL được xây dựng trên Hadoop. Đặc điểm chính của HBase là gì?

A. Hỗ trợ các giao dịch ACID (Atomicity, Consistency, Isolation, Durability).

B. Lưu trữ dữ liệu theo mô hình quan hệ.

C. Cung cấp khả năng truy cập ngẫu nhiên theo thời gian thực vào dữ liệu lớn.

D. Chỉ hỗ trợ truy vấn SQL.

26. Công cụ nào sau đây thường được sử dụng để thu thập và tải dữ liệu log từ nhiều nguồn khác nhau vào Hadoop?

A. HBase

B. Sqoop

C. Flume

D. Oozie

27. Trong Big Data, kỹ thuật `Data Wrangling` (hoặc Data Munging) đề cập đến hoạt động nào?

A. Quá trình xây dựng mô hình Machine Learning.

B. Quá trình chuyển đổi và làm sạch dữ liệu để chuẩn bị cho phân tích.

C. Quá trình trực quan hóa dữ liệu.

D. Quá trình bảo mật dữ liệu.

28. Trong lĩnh vực Big Data, thuật ngữ `CAP theorem` đề cập đến những thuộc tính nào mà một hệ thống phân tán phải cân bằng?

A. Cost, Availability, Performance

B. Consistency, Availability, Partition Tolerance

C. Capacity, Agility, Privacy

D. Complexity, Accuracy, Precision

29. Spark là một engine xử lý dữ liệu lớn. Ưu điểm chính của Spark so với MapReduce là gì?

A. Spark chỉ có thể xử lý dữ liệu có cấu trúc.

B. Spark nhanh hơn MapReduce do sử dụng bộ nhớ trong (in-memory processing).

C. Spark yêu cầu ít tài nguyên phần cứng hơn MapReduce.

D. Spark không hỗ trợ xử lý theo lô (batch processing).

30. Trong bối cảnh Big Data, thuật ngữ `Velocity` đề cập đến khía cạnh nào?

A. Độ chính xác của dữ liệu.

B. Sự đa dạng của các loại dữ liệu.

C. Tốc độ tạo và xử lý dữ liệu.

D. Quy mô của dữ liệu được lưu trữ.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

1. Kafka là một hệ thống message queue phân tán. Mục đích chính của việc sử dụng Kafka là gì?

A. Lưu trữ dữ liệu lịch sử.

B. Xử lý dữ liệu theo lô.

C. Truyền tải dữ liệu theo thời gian thực giữa các hệ thống.

D. Phân tích dữ liệu tương tác.

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

2. Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây cần được ưu tiên để đảm bảo khả năng mở rộng (scalability)?

A. Sử dụng một máy chủ duy nhất mạnh mẽ.

B. Phân tán dữ liệu và xử lý trên nhiều máy chủ.

C. Sử dụng cơ sở dữ liệu quan hệ truyền thống.

D. Tối ưu hóa cho các truy vấn cụ thể.

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

3. Trong kiến trúc Lambda, lớp Batch Layer có vai trò gì?

A. Xử lý dữ liệu theo thời gian thực.

B. Lưu trữ dữ liệu tạm thời.

C. Xử lý dữ liệu lịch sử theo lô.

D. Phục vụ các truy vấn tương tác.

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

4. Trong ngữ cảnh Big Data, 'Data Lakehouse' kết hợp những ưu điểm của Data Lake và Data Warehouse như thế nào?

A. Chỉ lưu trữ dữ liệu có cấu trúc.

B. Hỗ trợ cả dữ liệu thô và dữ liệu đã được xử lý, đồng thời cung cấp khả năng truy vấn SQL.

C. Chỉ hỗ trợ xử lý dữ liệu theo thời gian thực.

D. Không hỗ trợ Machine Learning.

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

5. Trong Big Data, thuật ngữ 'Schema on Read' liên quan đến cách tiếp cận nào trong xử lý dữ liệu?

A. Áp đặt cấu trúc dữ liệu trước khi lưu trữ.

B. Xác định cấu trúc dữ liệu khi truy vấn.

C. Tự động phát hiện cấu trúc dữ liệu.

D. Loại bỏ cấu trúc dữ liệu.

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

6. Trong Big Data, thuật ngữ 'Data Silos' đề cập đến vấn đề gì?

A. Dữ liệu được lưu trữ một cách an toàn.

B. Dữ liệu bị phân mảnh và khó truy cập.

C. Dữ liệu được chuẩn hóa và dễ dàng tích hợp.

D. Dữ liệu được nén để tiết kiệm không gian lưu trữ.

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

7. Oozie là một hệ thống workflow scheduler trong hệ sinh thái Hadoop. Chức năng chính của Oozie là gì?

A. Quản lý tài nguyên cluster.

B. Lập lịch và điều phối các công việc (jobs) Hadoop.

C. Thu thập dữ liệu log.

D. Truy vấn dữ liệu SQL.

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

8. Thuật ngữ 'Data Lake' khác biệt so với 'Data Warehouse' như thế nào?

A. Data Lake lưu trữ dữ liệu đã được xử lý và có cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu thô.

B. Data Lake lưu trữ dữ liệu thô và có thể có cấu trúc hoặc phi cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.

C. Data Lake chỉ lưu trữ dữ liệu từ các nguồn bên ngoài, trong khi Data Warehouse lưu trữ dữ liệu từ các nguồn nội bộ.

D. Data Lake chỉ được sử dụng cho phân tích thời gian thực, trong khi Data Warehouse được sử dụng cho phân tích lịch sử.

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

9. Trong ngữ cảnh Big Data, 'Data Mining' được hiểu là gì?

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.

B. Quá trình làm sạch và chuẩn hóa dữ liệu.

C. Quá trình khám phá các mẫu và thông tin hữu ích từ lượng lớn dữ liệu.

D. Quá trình bảo mật dữ liệu khỏi truy cập trái phép.

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

10. Công cụ nào sau đây thường được sử dụng để xây dựng các ứng dụng Machine Learning trên nền tảng Spark?

A. HDFS

B. MLlib

C. Hive

D. Kafka

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

11. Ưu điểm chính của việc sử dụng các định dạng dữ liệu cột (columnar data formats) như Parquet hoặc ORC trong Big Data là gì?

A. Tăng tốc độ ghi dữ liệu.

B. Giảm dung lượng lưu trữ và tăng tốc độ truy vấn.

C. Đơn giản hóa quá trình xử lý dữ liệu.

D. Tăng cường bảo mật dữ liệu.

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

12. Trong ngữ cảnh Big Data, 'Data Streaming' đề cập đến điều gì?

A. Quá trình di chuyển dữ liệu giữa các hệ thống lưu trữ.

B. Quá trình xử lý dữ liệu liên tục khi nó được tạo ra.

C. Quá trình sao lưu dữ liệu.

D. Quá trình nén dữ liệu.

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

13. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop sử dụng cú pháp giống SQL?

A. Spark

B. Kafka

C. Hive

D. Flume

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

14. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn (Big Data)?

A. Sqoop

B. Tableau

C. Flume

D. Oozie

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

15. Khi nào nên sử dụng kiến trúc Kappa thay vì kiến trúc Lambda trong xử lý dữ liệu lớn?

A. Khi cần xử lý cả dữ liệu có cấu trúc và phi cấu trúc.

B. Khi cần đảm bảo tính nhất quán tuyệt đối của dữ liệu.

C. Khi có thể xử lý lại toàn bộ dữ liệu một cách hiệu quả.

D. Khi cần xử lý dữ liệu theo thời gian thực và theo lô.

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

16. YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong Hadoop 2.0. Vai trò chính của YARN là gì?

A. Lưu trữ dữ liệu phân tán.

B. Xử lý dữ liệu song song.

C. Quản lý và phân bổ tài nguyên cluster.

D. Truy vấn dữ liệu SQL.

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

17. Công cụ nào sau đây thường được sử dụng để chuyển dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?

C. Kafka

D. Oozie

A. Flume

B. Sqoop

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

18. Hadoop là một framework mã nguồn mở được sử dụng rộng rãi trong Big Data. Thành phần chính nào của Hadoop chịu trách nhiệm lưu trữ dữ liệu?

A. YARN (Yet Another Resource Negotiator)

B. MapReduce

C. HDFS (Hadoop Distributed File System)

D. Pig

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

19. Công nghệ nào sau đây được sử dụng để xử lý các luồng sự kiện phức tạp (Complex Event Processing - CEP) trong thời gian thực?

A. Hadoop MapReduce

B. Apache Flink

C. HDFS

D. Hive

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

20. Đâu là thách thức lớn nhất khi làm việc với dữ liệu lớn (Big Data)?

A. Dung lượng lưu trữ.

B. Tốc độ xử lý.

C. Độ phức tạp của dữ liệu.

D. Tất cả các đáp án trên.

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

21. Thuật ngữ 'Dark Data' trong Big Data đề cập đến loại dữ liệu nào?

A. Dữ liệu đã được mã hóa.

B. Dữ liệu không được sử dụng hoặc phân tích.

C. Dữ liệu bị hỏng hoặc không chính xác.

D. Dữ liệu được lưu trữ trên đám mây.

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

22. Trong ngữ cảnh Big Data, 'Data Governance' đề cập đến điều gì?

A. Quá trình mã hóa dữ liệu để bảo mật.

B. Quá trình quản lý và đảm bảo chất lượng, tính toàn vẹn và bảo mật của dữ liệu.

C. Quá trình trực quan hóa dữ liệu.

D. Quá trình thu thập dữ liệu từ các nguồn khác nhau.

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

23. Hadoop MapReduce hoạt động dựa trên nguyên tắc nào?

A. Chia để trị (Divide and Conquer).

B. Tìm kiếm theo chiều sâu (Depth-First Search).

C. Tìm kiếm theo chiều rộng (Breadth-First Search).

D. Quy hoạch động (Dynamic Programming).

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

24. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực (real-time processing)?

A. Batch Layer

B. Serving Layer

C. Speed Layer

D. Storage Layer

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

25. HBase là một hệ quản trị cơ sở dữ liệu NoSQL được xây dựng trên Hadoop. Đặc điểm chính của HBase là gì?

A. Hỗ trợ các giao dịch ACID (Atomicity, Consistency, Isolation, Durability).

B. Lưu trữ dữ liệu theo mô hình quan hệ.

C. Cung cấp khả năng truy cập ngẫu nhiên theo thời gian thực vào dữ liệu lớn.

D. Chỉ hỗ trợ truy vấn SQL.

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

26. Công cụ nào sau đây thường được sử dụng để thu thập và tải dữ liệu log từ nhiều nguồn khác nhau vào Hadoop?

A. HBase

B. Sqoop

C. Flume

D. Oozie

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

27. Trong Big Data, kỹ thuật 'Data Wrangling' (hoặc Data Munging) đề cập đến hoạt động nào?

A. Quá trình xây dựng mô hình Machine Learning.

B. Quá trình chuyển đổi và làm sạch dữ liệu để chuẩn bị cho phân tích.

C. Quá trình trực quan hóa dữ liệu.

D. Quá trình bảo mật dữ liệu.

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

28. Trong lĩnh vực Big Data, thuật ngữ 'CAP theorem' đề cập đến những thuộc tính nào mà một hệ thống phân tán phải cân bằng?

A. Cost, Availability, Performance

B. Consistency, Availability, Partition Tolerance

C. Capacity, Agility, Privacy

D. Complexity, Accuracy, Precision

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

29. Spark là một engine xử lý dữ liệu lớn. Ưu điểm chính của Spark so với MapReduce là gì?

A. Spark chỉ có thể xử lý dữ liệu có cấu trúc.

B. Spark nhanh hơn MapReduce do sử dụng bộ nhớ trong (in-memory processing).

C. Spark yêu cầu ít tài nguyên phần cứng hơn MapReduce.

D. Spark không hỗ trợ xử lý theo lô (batch processing).

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 6

30. Trong bối cảnh Big Data, thuật ngữ 'Velocity' đề cập đến khía cạnh nào?

A. Độ chính xác của dữ liệu.

B. Sự đa dạng của các loại dữ liệu.

C. Tốc độ tạo và xử lý dữ liệu.

D. Quy mô của dữ liệu được lưu trữ.

Xem kết quả

Đề trắc nghiệm liên quan: