[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

[Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

1. Khi dữ liệu có quá nhiều chiều (high dimensionality), vấn đề nào thường nảy sinh và cần được xử lý?

A. Dữ liệu trở nên quá nhỏ để phân tích.
B. Vấn đề suy giảm chiều (dimensionality reduction) và quá khớp (overfitting).
C. Tốc độ xử lý dữ liệu tăng lên đáng kể.
D. Không cần xử lý gì thêm, nhiều chiều luôn tốt hơn.

2. Trong Khoa học dữ liệu, giai đoạn tiền xử lý dữ liệu (data preprocessing) có vai trò gì?

A. Chỉ đơn thuần là hiển thị dữ liệu dưới dạng bảng.
B. Làm sạch, chuyển đổi và định dạng dữ liệu để phù hợp cho việc phân tích và xây dựng mô hình.
C. Tạo ra các biểu đồ và báo cáo cuối cùng.
D. Đánh giá hiệu suất của mô hình đã xây dựng.

3. Đâu là yếu tố cốt lõi tạo nên sự khác biệt và sức mạnh của Khoa học dữ liệu so với các ngành phân tích dữ liệu truyền thống?

A. Chỉ tập trung vào việc trực quan hóa dữ liệu.
B. Sự kết hợp giữa kiến thức chuyên môn về lĩnh vực ứng dụng, kỹ năng lập trình, thống kê và khả năng hiểu biết về dữ liệu.
C. Chỉ sử dụng các công cụ có sẵn mà không cần phát triển thuật toán mới.
D. Chỉ yêu cầu kiến thức về cơ sở dữ liệu.

4. Yếu tố nào sau đây KHÔNG thuộc về Dữ liệu lớn (Big Data) theo định nghĩa 3V truyền thống?

A. Volume (Khối lượng).
B. Velocity (Vận tốc).
C. Value (Giá trị).
D. Variety (Sự đa dạng).

5. Vai trò của nhà khoa học dữ liệu (Data Scientist) là gì trong một tổ chức?

A. Chỉ chịu trách nhiệm về việc thu thập dữ liệu.
B. Phân tích dữ liệu, xây dựng mô hình dự đoán, và diễn giải kết quả để hỗ trợ việc ra quyết định kinh doanh.
C. Thiết kế giao diện người dùng cho các sản phẩm phần mềm.
D. Quản lý hạ tầng mạng của công ty.

6. Trong mô hình CRISP-DM (Cross-Industry Standard Process for Data Mining), giai đoạn Đánh giá (Evaluation) thường diễn ra khi nào?

A. Ngay sau khi thu thập dữ liệu.
B. Sau khi xây dựng và tinh chỉnh mô hình, trước khi triển khai.
C. Trong quá trình tiền xử lý dữ liệu.
D. Chỉ sau khi mô hình đã được triển khai và hoạt động.

7. Khái niệm Khoa học dữ liệu (Data Science) có thể được mô tả chính xác nhất như thế nào trong bối cảnh công nghệ hiện đại?

A. Một lĩnh vực tập trung vào việc thiết kế phần cứng máy tính.
B. Một lĩnh vực liên ngành sử dụng phương pháp khoa học, quy trình, thuật toán và hệ thống để trích xuất kiến thức và hiểu biết từ dữ liệu có cấu trúc và phi cấu trúc.
C. Chỉ đơn thuần là việc phân tích dữ liệu bằng các công cụ thống kê.
D. Một lĩnh vực chuyên về bảo mật mạng máy tính.

8. Khái niệm quá khớp (overfitting) trong Khoa học dữ liệu xảy ra khi nào?

A. Mô hình học quá ít từ dữ liệu huấn luyện.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng hoạt động kém trên dữ liệu mới, chưa từng thấy.
C. Mô hình không học được gì từ dữ liệu.
D. Dữ liệu huấn luyện quá ít.

9. Mục tiêu chính của việc khám phá dữ liệu (exploratory data analysis - EDA) trong Khoa học dữ liệu là gì?

A. Hoàn thiện báo cáo cuối cùng.
B. Xây dựng giao diện người dùng cho ứng dụng.
C. Hiểu rõ các đặc điểm, xu hướng, mối quan hệ và các điểm bất thường trong dữ liệu.
D. Triển khai mô hình lên máy chủ.

10. Yếu tố nào sau đây là quan trọng nhất trong việc lựa chọn thuật toán phù hợp cho một bài toán Khoa học dữ liệu?

A. Tuổi của nhà khoa học dữ liệu.
B. Mục tiêu của bài toán (phân loại, hồi quy, phân nhóm, v.v.) và đặc điểm của dữ liệu.
C. Ngôn ngữ lập trình được sử dụng.
D. Số lượng lựa chọn có sẵn trong phần mềm.

11. Quy trình làm việc điển hình trong Khoa học dữ liệu thường bắt đầu bằng bước nào sau đây?

A. Trực quan hóa kết quả.
B. Xây dựng mô hình dự đoán.
C. Thu thập và hiểu yêu cầu bài toán, xác định mục tiêu.
D. Triển khai mô hình vào sản xuất.

12. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong lĩnh vực Khoa học dữ liệu hiện nay nhờ hệ sinh thái thư viện phong phú?

A. Java.
B. C++.
C. Python.
D. JavaScript.

13. Mục đích chính của việc trực quan hóa dữ liệu (data visualization) trong Khoa học dữ liệu là gì?

A. Tăng dung lượng lưu trữ của dữ liệu.
B. Biến đổi dữ liệu thành định dạng có thể đọc bởi máy tính.
C. Biểu diễn thông tin và kết quả phân tích một cách trực quan, dễ hiểu để hỗ trợ việc ra quyết định.
D. Xóa bỏ các giá trị ngoại lai (outliers) trong dữ liệu.

14. Khái niệm học sâu (Deep Learning) liên quan mật thiết đến Khoa học dữ liệu như thế nào?

A. Học sâu là một lĩnh vực hoàn toàn tách biệt và không liên quan đến Khoa học dữ liệu.
B. Học sâu là một tập hợp con của Học máy, sử dụng các mạng nơ-ron nhân tạo nhiều lớp để học các biểu diễn phức tạp của dữ liệu.
C. Học sâu chỉ áp dụng cho dữ liệu văn bản.
D. Học sâu là kỹ thuật duy nhất được sử dụng trong Khoa học dữ liệu.

15. Vai trò của kỹ sư dữ liệu (Data Engineer) trong một dự án Khoa học dữ liệu là gì?

A. Chỉ tập trung vào việc xây dựng mô hình dự đoán.
B. Thiết kế, xây dựng và bảo trì hệ thống thu thập, lưu trữ và xử lý dữ liệu.
C. Phân tích kết quả và đưa ra khuyến nghị kinh doanh.
D. Tạo ra các giao diện người dùng đẹp mắt.

16. Khi nói về dữ liệu lớn (Big Data), yếu tố nào sau đây thường KHÔNG được xem là đặc trưng chính?

A. Vận tốc (Velocity) - Tốc độ tạo và xử lý dữ liệu.
B. Khối lượng (Volume) - Dung lượng lớn của dữ liệu.
C. Sự đa dạng (Variety) - Nhiều loại hình dữ liệu khác nhau.
D. Độ chính xác (Accuracy) - Mức độ tin cậy của mọi điểm dữ liệu.

17. Trong Khoa học dữ liệu, khái niệm tính năng (feature) thường đề cập đến điều gì?

A. Kết quả cuối cùng của mô hình dự đoán.
B. Một thuộc tính hoặc đặc điểm có thể đo lường được của dữ liệu, được sử dụng làm đầu vào cho mô hình.
C. Thuật toán được sử dụng để phân tích dữ liệu.
D. Các biểu đồ được tạo ra từ dữ liệu.

18. Trong quá trình đánh giá mô hình (model evaluation), chỉ số nào thường được sử dụng để đo lường hiệu suất của một bài toán phân loại?

A. Mean Squared Error (MSE).
B. R-squared.
C. Accuracy (Độ chính xác).
D. Root Mean Squared Error (RMSE).

19. Công cụ nào thường được sử dụng để trực quan hóa dữ liệu một cách tương tác và tạo báo cáo động trong Khoa học dữ liệu?

A. Microsoft Word.
B. Tableau hoặc Power BI.
C. Adobe Photoshop.
D. Microsoft Paint.

20. Thuật toán nào sau đây thuộc nhóm thuật toán học không giám sát (Unsupervised Learning)?

A. Support Vector Machine (SVM).
B. Decision Tree Classifier.
C. K-Means Clustering.
D. Logistic Regression.

21. Trong chu trình sống của một dự án Khoa học dữ liệu, sau khi xây dựng và đánh giá mô hình, bước tiếp theo thường là gì?

A. Thu thập thêm dữ liệu.
B. Tái cấu trúc lại toàn bộ dữ liệu.
C. Triển khai (Deployment) mô hình vào môi trường thực tế.
D. Xóa bỏ dữ liệu.

22. Khái niệm tính năng kỹ thuật (feature engineering) trong Khoa học dữ liệu là gì?

A. Việc tạo ra các biểu đồ mới từ dữ liệu gốc.
B. Quá trình lựa chọn các đặc trưng quan trọng nhất từ tập dữ liệu.
C. Quá trình sử dụng kiến thức chuyên môn để tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có nhằm cải thiện hiệu suất mô hình.
D. Việc thiết lập cơ sở dữ liệu.

23. Công nghệ nào sau đây KHÔNG phải là một công cụ hoặc kỹ thuật phổ biến trong Khoa học dữ liệu?

A. Python với các thư viện như Pandas, NumPy, Scikit-learn.
B. SQL để truy vấn và quản lý cơ sở dữ liệu.
C. Phần mềm thiết kế đồ họa 3D như Blender.
D. Các thuật toán học máy (Machine Learning) như hồi quy tuyến tính, cây quyết định.

24. Thuật toán nào sau đây thuộc nhóm thuật toán học có giám sát (Supervised Learning)?

A. K-Means Clustering.
B. Principal Component Analysis (PCA).
C. Linear Regression.
D. Association Rule Mining (Apriori).

25. Đâu là một ví dụ về bài toán phân loại (classification) trong Khoa học dữ liệu?

A. Dự đoán giá nhà dựa trên diện tích và vị trí.
B. Phân loại email là thư rác (spam) hoặc không phải thư rác (ham).
C. Dự đoán số lượng khách hàng sẽ mua sản phẩm.
D. Ước tính doanh thu bán hàng trong tháng tới.

1 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

1. Khi dữ liệu có quá nhiều chiều (high dimensionality), vấn đề nào thường nảy sinh và cần được xử lý?

2 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

2. Trong Khoa học dữ liệu, giai đoạn tiền xử lý dữ liệu (data preprocessing) có vai trò gì?

3 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

3. Đâu là yếu tố cốt lõi tạo nên sự khác biệt và sức mạnh của Khoa học dữ liệu so với các ngành phân tích dữ liệu truyền thống?

4 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

4. Yếu tố nào sau đây KHÔNG thuộc về Dữ liệu lớn (Big Data) theo định nghĩa 3V truyền thống?

5 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

5. Vai trò của nhà khoa học dữ liệu (Data Scientist) là gì trong một tổ chức?

6 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

6. Trong mô hình CRISP-DM (Cross-Industry Standard Process for Data Mining), giai đoạn Đánh giá (Evaluation) thường diễn ra khi nào?

7 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

7. Khái niệm Khoa học dữ liệu (Data Science) có thể được mô tả chính xác nhất như thế nào trong bối cảnh công nghệ hiện đại?

8 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

8. Khái niệm quá khớp (overfitting) trong Khoa học dữ liệu xảy ra khi nào?

9 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

9. Mục tiêu chính của việc khám phá dữ liệu (exploratory data analysis - EDA) trong Khoa học dữ liệu là gì?

10 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

10. Yếu tố nào sau đây là quan trọng nhất trong việc lựa chọn thuật toán phù hợp cho một bài toán Khoa học dữ liệu?

11 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

11. Quy trình làm việc điển hình trong Khoa học dữ liệu thường bắt đầu bằng bước nào sau đây?

12 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

12. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong lĩnh vực Khoa học dữ liệu hiện nay nhờ hệ sinh thái thư viện phong phú?

13 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

13. Mục đích chính của việc trực quan hóa dữ liệu (data visualization) trong Khoa học dữ liệu là gì?

14 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

14. Khái niệm học sâu (Deep Learning) liên quan mật thiết đến Khoa học dữ liệu như thế nào?

15 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

15. Vai trò của kỹ sư dữ liệu (Data Engineer) trong một dự án Khoa học dữ liệu là gì?

16 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

16. Khi nói về dữ liệu lớn (Big Data), yếu tố nào sau đây thường KHÔNG được xem là đặc trưng chính?

17 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

17. Trong Khoa học dữ liệu, khái niệm tính năng (feature) thường đề cập đến điều gì?

18 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

18. Trong quá trình đánh giá mô hình (model evaluation), chỉ số nào thường được sử dụng để đo lường hiệu suất của một bài toán phân loại?

19 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

19. Công cụ nào thường được sử dụng để trực quan hóa dữ liệu một cách tương tác và tạo báo cáo động trong Khoa học dữ liệu?

20 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

20. Thuật toán nào sau đây thuộc nhóm thuật toán học không giám sát (Unsupervised Learning)?

21 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

21. Trong chu trình sống của một dự án Khoa học dữ liệu, sau khi xây dựng và đánh giá mô hình, bước tiếp theo thường là gì?

22 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

22. Khái niệm tính năng kỹ thuật (feature engineering) trong Khoa học dữ liệu là gì?

23 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

23. Công nghệ nào sau đây KHÔNG phải là một công cụ hoặc kỹ thuật phổ biến trong Khoa học dữ liệu?

24 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

24. Thuật toán nào sau đây thuộc nhóm thuật toán học có giám sát (Supervised Learning)?

25 / 25

Category: [Cánh diều] Trắc nghiệm Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

25. Đâu là một ví dụ về bài toán phân loại (classification) trong Khoa học dữ liệu?