[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

1. Thư viện nào trong Python thường được sử dụng cho các phép tính số học và thao tác trên mảng đa chiều, là nền tảng cho nhiều thư viện khoa học dữ liệu khác?

A. Pandas.
B. Scikit-learn.
C. NumPy.
D. Matplotlib.

2. Khi làm sạch dữ liệu, việc phát hiện và xử lý các giá trị bị thiếu (missing values) là rất cần thiết. Phương pháp nào KHÔNG PHẢI là cách tiếp cận phổ biến để xử lý giá trị thiếu?

A. Xóa bỏ các hàng hoặc cột chứa giá trị thiếu.
B. Điền giá trị thiếu bằng giá trị trung bình hoặc trung vị của cột.
C. Điền giá trị thiếu bằng một giá trị ngẫu nhiên phù hợp.
D. Tự động bổ sung dữ liệu mới dựa trên các biến liên quan mà không có giá trị thiếu.

3. Khi so sánh phân phối của hai biến định lượng, biểu đồ nào sau đây thường được sử dụng để xem xét mối quan hệ giữa chúng và phát hiện các cụm (clusters)?

A. Biểu đồ hộp (Box plot).
B. Biểu đồ tần suất (Histogram).
C. Biểu đồ phân tán (Scatter plot).
D. Biểu đồ thanh chồng (Stacked bar chart).

4. Trong ngữ cảnh phân tích dữ liệu, data wrangling (sắp xếp dữ liệu) bao gồm các hoạt động nào?

A. Chỉ là việc trực quan hóa dữ liệu.
B. Việc chuyển đổi, làm sạch và tổ chức lại dữ liệu thô thành định dạng phù hợp cho phân tích.
C. Chỉ là việc xây dựng mô hình.
D. Việc chạy các thuật toán thống kê phức tạp.

5. Trong phân tích dữ liệu, correlation (tương quan) đo lường điều gì?

A. Mức độ ảnh hưởng nhân quả giữa hai biến.
B. Sự thay đổi đồng thời của hai biến số.
C. Tần suất xuất hiện của một biến.
D. Giá trị trung bình của một tập dữ liệu.

6. Mục tiêu chính của việc data validation (xác thực dữ liệu) là gì?

A. Tăng tốc độ xử lý dữ liệu.
B. Đảm bảo dữ liệu đáp ứng các tiêu chuẩn về chất lượng, độ chính xác và tính nhất quán.
C. Tạo ra các báo cáo đẹp mắt.
D. Giảm dung lượng lưu trữ của dữ liệu.

7. Công cụ nào dưới đây thường được sử dụng để biểu diễn dữ liệu dưới dạng biểu đồ, đồ thị nhằm giúp người xem dễ dàng nắm bắt xu hướng và mối quan hệ giữa các biến số?

A. Các thuật toán máy học.
B. Các ngôn ngữ lập trình như Python, R.
C. Các thư viện trực quan hóa dữ liệu như Matplotlib, Seaborn, ggplot2.
D. Các hệ quản trị cơ sở dữ liệu.

8. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất hiện nay trong lĩnh vực khoa học dữ liệu và phân tích dữ liệu nhờ vào hệ sinh thái thư viện phong phú?

A. Java.
B. C++.
C. Python.
D. JavaScript.

9. Mục tiêu của data cleaning (làm sạch dữ liệu) không bao gồm hành động nào?

A. Xử lý các giá trị bị thiếu.
B. Phát hiện và sửa lỗi chính tả.
C. Loại bỏ các giá trị ngoại lai không cần thiết cho phân tích.
D. Tạo ra các biến mới từ dữ liệu hiện có.

10. Trong phân tích dữ liệu, feature engineering (kỹ thuật đặc trưng) là quá trình gì?

A. Xây dựng mô hình máy học từ đầu.
B. Trực quan hóa dữ liệu thô.
C. Tạo ra các biến mới từ dữ liệu hiện có để cải thiện hiệu suất của mô hình.
D. Đánh giá độ chính xác của mô hình.

11. Để phân tích xu hướng của một biến định lượng theo thời gian, loại biểu đồ nào sau đây là phù hợp nhất?

A. Biểu đồ cột (Bar chart).
B. Biểu đồ tròn (Pie chart).
C. Biểu đồ phân tán (Scatter plot).
D. Biểu đồ đường (Line chart).

12. Khi phân tích dữ liệu về phản hồi của khách hàng, loại biến nào sau đây là biến định tính (qualitative variable)?

A. Tuổi của khách hàng.
B. Số tiền khách hàng chi tiêu.
C. Mức độ hài lòng của khách hàng (Rất hài lòng, Hài lòng, Bình thường, Không hài lòng).
D. Số lần khách hàng truy cập website.

13. Một tập dữ liệu có cột Ngày (Date) và cột Doanh thu (Revenue). Để xem doanh thu trung bình theo tháng, ta cần thực hiện hành động gì với cột Ngày?

A. Chuyển đổi cột Ngày thành dạng số nguyên.
B. Trích xuất thông tin tháng từ cột Ngày và nhóm dữ liệu theo tháng.
C. Xóa bỏ cột Ngày.
D. Sắp xếp dữ liệu theo năm.

14. Khi làm việc với dữ liệu dạng bảng (tabular data), thuật ngữ outlier (ngoại lai) thường đề cập đến loại giá trị nào?

A. Các giá trị lặp lại nhiều lần.
B. Các giá trị nằm trong khoảng giá trị phổ biến của tập dữ liệu.
C. Các giá trị khác biệt đáng kể so với phần lớn các giá trị khác trong cùng một biến.
D. Các giá trị bị thiếu.

15. Phân tích dữ liệu Big Data khác biệt với phân tích dữ liệu truyền thống chủ yếu ở điểm nào?

A. Chỉ tập trung vào dữ liệu có cấu trúc.
B. Yêu cầu xử lý các tập dữ liệu có khối lượng lớn, tốc độ cao và đa dạng về định dạng (Volume, Velocity, Variety).
C. Sử dụng ít công cụ và kỹ thuật hơn.
D. Không cần làm sạch dữ liệu.

16. Phân tích nào tập trung vào việc mô tả đặc điểm của dữ liệu hiện có, như giá trị trung bình, độ lệch chuẩn, tần suất xuất hiện?

A. Phân tích dự đoán (Predictive Analysis).
B. Phân tích chuẩn tắc (Prescriptive Analysis).
C. Phân tích mô tả (Descriptive Analysis).
D. Phân tích chẩn đoán (Diagnostic Analysis).

17. Thư viện Pandas trong Python cung cấp cấu trúc dữ liệu chính nào để làm việc với dữ liệu có cấu trúc dạng bảng?

A. NumPy Array.
B. DataFrame.
C. Series.
D. Dictionary.

18. Phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) có vai trò gì chính trong quy trình phân tích dữ liệu?

A. Đưa ra kết luận cuối cùng về vấn đề cần phân tích.
B. Xây dựng mô hình dự đoán phức tạp.
C. Hiểu rõ đặc điểm, cấu trúc, phát hiện mẫu và các bất thường trong dữ liệu.
D. Trình bày kết quả cho các bên liên quan.

19. Trong phân tích dữ liệu, khái niệm dimensionality reduction (giảm chiều dữ liệu) thường được áp dụng khi nào?

A. Khi dữ liệu có quá nhiều biến, dẫn đến lời nguyền chiều dữ liệu (curse of dimensionality) và tăng khả năng overfitting.
B. Khi dữ liệu có quá ít biến.
C. Khi muốn tăng cường mối quan hệ nhân quả.
D. Khi dữ liệu thiếu giá trị.

20. Trong quá trình phân tích dữ liệu, bước nào thường được xem là quan trọng nhất để đảm bảo chất lượng và độ tin cậy của kết quả cuối cùng?

A. Trực quan hóa dữ liệu.
B. Thu thập và làm sạch dữ liệu.
C. Xây dựng mô hình dự đoán.
D. Diễn giải kết quả.

21. Khi làm sạch dữ liệu, việc chuẩn hóa (normalization) và co giãn (scaling) thường được áp dụng cho các biến định lượng có ý nghĩa gì?

A. Để làm cho các biến có đơn vị đo lường khác nhau trở nên dễ so sánh và phù hợp với các thuật toán nhạy cảm với thang đo.
B. Để loại bỏ các giá trị ngoại lai.
C. Để tăng cường mối tương quan giữa các biến.
D. Để giảm kích thước tập dữ liệu.

22. Khi làm việc với dữ liệu văn bản (text data), bước tiền xử lý nào là quan trọng để giảm số lượng từ vựng và loại bỏ các từ ít mang ý nghĩa?

A. Tokenization (Tách từ).
B. Stemming/Lemmatization (Rút gọn gốc từ/Chuẩn hóa từ).
C. Stop word removal (Loại bỏ các từ dừng).
D. Tất cả các phương án trên.

23. Trong kỹ thuật one-hot encoding được sử dụng cho biến định tính, mỗi giá trị duy nhất của biến gốc sẽ được biểu diễn bằng:

A. Một số nguyên duy nhất.
B. Một biến nhị phân (0 hoặc 1) mới.
C. Một chuỗi ký tự đặc biệt.
D. Một giá trị trung bình.

24. Phân tích nào nhằm mục đích giải thích tại sao một sự kiện hoặc một kết quả xảy ra, thường tìm kiếm nguyên nhân và mối quan hệ nhân quả?

A. Phân tích mô tả (Descriptive Analysis).
B. Phân tích dự đoán (Predictive Analysis).
C. Phân tích chẩn đoán (Diagnostic Analysis).
D. Phân tích chuẩn tắc (Prescriptive Analysis).

25. Khi bạn muốn so sánh sự phân bố của một biến định lượng giữa nhiều nhóm khác nhau, biểu đồ nào là lựa chọn tốt nhất?

A. Biểu đồ tròn (Pie chart).
B. Biểu đồ tần suất (Histogram).
C. Biểu đồ hộp (Box plot).
D. Biểu đồ thanh chồng (Stacked bar chart).

1 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

1. Thư viện nào trong Python thường được sử dụng cho các phép tính số học và thao tác trên mảng đa chiều, là nền tảng cho nhiều thư viện khoa học dữ liệu khác?

2 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

2. Khi làm sạch dữ liệu, việc phát hiện và xử lý các giá trị bị thiếu (missing values) là rất cần thiết. Phương pháp nào KHÔNG PHẢI là cách tiếp cận phổ biến để xử lý giá trị thiếu?

3 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

3. Khi so sánh phân phối của hai biến định lượng, biểu đồ nào sau đây thường được sử dụng để xem xét mối quan hệ giữa chúng và phát hiện các cụm (clusters)?

4 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

4. Trong ngữ cảnh phân tích dữ liệu, data wrangling (sắp xếp dữ liệu) bao gồm các hoạt động nào?

5 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

5. Trong phân tích dữ liệu, correlation (tương quan) đo lường điều gì?

6 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

6. Mục tiêu chính của việc data validation (xác thực dữ liệu) là gì?

7 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

7. Công cụ nào dưới đây thường được sử dụng để biểu diễn dữ liệu dưới dạng biểu đồ, đồ thị nhằm giúp người xem dễ dàng nắm bắt xu hướng và mối quan hệ giữa các biến số?

8 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

8. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất hiện nay trong lĩnh vực khoa học dữ liệu và phân tích dữ liệu nhờ vào hệ sinh thái thư viện phong phú?

9 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

9. Mục tiêu của data cleaning (làm sạch dữ liệu) không bao gồm hành động nào?

10 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

10. Trong phân tích dữ liệu, feature engineering (kỹ thuật đặc trưng) là quá trình gì?

11 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

11. Để phân tích xu hướng của một biến định lượng theo thời gian, loại biểu đồ nào sau đây là phù hợp nhất?

12 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

12. Khi phân tích dữ liệu về phản hồi của khách hàng, loại biến nào sau đây là biến định tính (qualitative variable)?

13 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

13. Một tập dữ liệu có cột Ngày (Date) và cột Doanh thu (Revenue). Để xem doanh thu trung bình theo tháng, ta cần thực hiện hành động gì với cột Ngày?

14 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

14. Khi làm việc với dữ liệu dạng bảng (tabular data), thuật ngữ outlier (ngoại lai) thường đề cập đến loại giá trị nào?

15 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

15. Phân tích dữ liệu Big Data khác biệt với phân tích dữ liệu truyền thống chủ yếu ở điểm nào?

16 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

16. Phân tích nào tập trung vào việc mô tả đặc điểm của dữ liệu hiện có, như giá trị trung bình, độ lệch chuẩn, tần suất xuất hiện?

17 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

17. Thư viện Pandas trong Python cung cấp cấu trúc dữ liệu chính nào để làm việc với dữ liệu có cấu trúc dạng bảng?

18 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

18. Phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) có vai trò gì chính trong quy trình phân tích dữ liệu?

19 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

19. Trong phân tích dữ liệu, khái niệm dimensionality reduction (giảm chiều dữ liệu) thường được áp dụng khi nào?

20 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

20. Trong quá trình phân tích dữ liệu, bước nào thường được xem là quan trọng nhất để đảm bảo chất lượng và độ tin cậy của kết quả cuối cùng?

21 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

21. Khi làm sạch dữ liệu, việc chuẩn hóa (normalization) và co giãn (scaling) thường được áp dụng cho các biến định lượng có ý nghĩa gì?

22 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

22. Khi làm việc với dữ liệu văn bản (text data), bước tiền xử lý nào là quan trọng để giảm số lượng từ vựng và loại bỏ các từ ít mang ý nghĩa?

23 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

23. Trong kỹ thuật one-hot encoding được sử dụng cho biến định tính, mỗi giá trị duy nhất của biến gốc sẽ được biểu diễn bằng:

24 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

24. Phân tích nào nhằm mục đích giải thích tại sao một sự kiện hoặc một kết quả xảy ra, thường tìm kiếm nguyên nhân và mối quan hệ nhân quả?

25 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

25. Khi bạn muốn so sánh sự phân bố của một biến định lượng giữa nhiều nhóm khác nhau, biểu đồ nào là lựa chọn tốt nhất?