[Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


[Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

[Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

1. Trong phân tích dữ liệu, bias (độ chệch) trong mô hình học máy đề cập đến điều gì?

A. Sự nhạy cảm của mô hình với các thay đổi nhỏ trong dữ liệu huấn luyện.
B. Sai lệch hệ thống trong dự đoán của mô hình do các giả định đơn giản hóa quá mức.
C. Khả năng tổng quát hóa của mô hình trên dữ liệu mới.
D. Tốc độ hội tụ của thuật toán huấn luyện.

2. Khi huấn luyện mô hình máy học, tập dữ liệu được chia thành các tập con nào để đảm bảo đánh giá hiệu suất một cách khách quan?

A. Tập huấn luyện (Training Set) và tập kiểm tra (Test Set).
B. Tập huấn luyện (Training Set) và tập xác thực (Validation Set).
C. Tập huấn luyện (Training Set), tập xác thực (Validation Set) và tập kiểm tra (Test Set).
D. Chỉ cần một tập huấn luyện duy nhất.

3. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số nào đo lường tỷ lệ các trường hợp được dự đoán đúng trên tổng số trường hợp?

A. Precision.
B. Recall.
C. F1-Score.
D. Accuracy.

4. Quá trình trực quan hóa dữ liệu (Data Visualization) chủ yếu nhằm mục đích gì?

A. Tăng kích thước tập dữ liệu.
B. Trình bày thông tin phức tạp một cách dễ hiểu và trực quan.
C. Giảm độ chính xác của dữ liệu.
D. Loại bỏ hoàn toàn các outliers.

5. Kỹ thuật nào giúp khám phá các mối quan hệ hoặc mẫu hình ẩn trong tập dữ liệu mà không cần nhãn (label) đi kèm?

A. Học có giám sát (Supervised Learning).
B. Học không giám sát (Unsupervised Learning).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).

6. Mô hình máy học nào thường được sử dụng để phân loại dữ liệu thành các nhóm hoặc lớp khác nhau?

A. Hồi quy tuyến tính (Linear Regression).
B. Phân cụm (Clustering).
C. Cây quyết định (Decision Tree).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

7. Kỹ thuật feature engineering trong khoa học dữ liệu liên quan đến việc gì?

A. Chỉ sử dụng các thuộc tính có sẵn trong dữ liệu gốc.
B. Tạo ra các thuộc tính mới từ dữ liệu gốc để cải thiện hiệu suất mô hình.
C. Phân tích mối quan hệ giữa các mô hình học máy.
D. Đánh giá độ tin cậy của nguồn dữ liệu.

8. Công đoạn nào trong quy trình khoa học dữ liệu bao gồm việc làm sạch, biến đổi và tổ chức dữ liệu để sẵn sàng cho phân tích?

A. Thu thập dữ liệu (Data Collection).
B. Trực quan hóa dữ liệu (Data Visualization).
C. Chuẩn bị dữ liệu (Data Preparation).
D. Diễn giải kết quả (Result Interpretation).

9. Trong phân tích dữ liệu, outlier (ngoại lai) là gì?

A. Giá trị trung bình của tập dữ liệu.
B. Một điểm dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu.
C. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
D. Phân phối chuẩn của dữ liệu.

10. Thuật ngữ feature trong ngữ cảnh khoa học dữ liệu thường ám chỉ điều gì?

A. Giá trị dự đoán của mô hình.
B. Một thuộc tính hoặc biến đo lường được của đối tượng dữ liệu.
C. Kết quả cuối cùng của một bài toán phân tích.
D. Thuật toán được sử dụng để huấn luyện mô hình.

11. Chỉ số Precision trong bài toán phân loại đo lường điều gì?

A. Tỷ lệ các trường hợp dương tính thực sự trong số tất cả các trường hợp được dự đoán là dương tính.
B. Tỷ lệ các trường hợp dương tính thực sự trong số tất cả các trường hợp dương tính thực tế.
C. Tỷ lệ các trường hợp âm tính thực sự trong số tất cả các trường hợp được dự đoán là âm tính.
D. Trung bình cộng của Precision và Recall.

12. Khi thực hiện phân tích A/B testing, mục đích chính là gì?

A. Xây dựng mô hình dự đoán tương lai.
B. So sánh hiệu quả của hai phiên bản (A và B) để xác định phiên bản nào tốt hơn.
C. Làm sạch dữ liệu người dùng.
D. Phân loại khách hàng dựa trên hành vi.

13. Trong phân tích chuỗi thời gian (Time Series Analysis), yếu tố nào biểu thị sự biến động theo chu kỳ lặp lại trong khoảng thời gian ngắn hơn một năm?

A. Xu hướng (Trend).
B. Tính thời vụ (Seasonality).
C. Tính ngẫu nhiên (Randomness).
D. Chu kỳ (Cycle).

14. Trong phân tích văn bản, kỹ thuật TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

A. Đo lường tần suất xuất hiện của một từ trong một văn bản cụ thể.
B. Đánh giá mức độ quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu.
C. Phân loại các loại cảm xúc trong văn bản.
D. Tạo ra các vector biểu diễn cho từ.

15. Khái niệm Data Mining (Khai phá dữ liệu) và Data Science (Khoa học dữ liệu) có mối quan hệ như thế nào?

A. Chúng là hai lĩnh vực hoàn toàn khác biệt và không liên quan.
B. Data Mining là một phần nhỏ và là một kỹ thuật trong phạm vi rộng lớn hơn của Data Science.
C. Data Science là một kỹ thuật chuyên biệt của Data Mining.
D. Chúng đồng nghĩa và có thể sử dụng thay thế cho nhau.

16. Mô hình học máy nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như giá nhà hoặc nhiệt độ?

A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Hồi quy (Regression).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

17. Trong khoa học dữ liệu, khái niệm Big Data thường đề cập đến tập dữ liệu có đặc điểm nào sau đây?

A. Tập dữ liệu có khối lượng nhỏ, dễ quản lý và phân tích.
B. Tập dữ liệu có khối lượng lớn, tốc độ tăng trưởng nhanh và đa dạng về định dạng.
C. Tập dữ liệu chỉ bao gồm dữ liệu có cấu trúc từ cơ sở dữ liệu quan hệ.
D. Tập dữ liệu được tạo ra từ một nguồn duy nhất và có tính nhất quán cao.

18. Kỹ thuật nào giúp giảm số lượng biến đầu vào trong một tập dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng?

A. Hồi quy đa thức (Polynomial Regression).
B. Phân tích thành phần chính (Principal Component Analysis - PCA).
C. Học tăng cường (Reinforcement Learning).
D. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN).

19. Công nghệ Blockchain có thể ứng dụng trong khoa học dữ liệu như thế nào?

A. Chỉ dùng để lưu trữ dữ liệu không có cấu trúc.
B. Tăng cường tính minh bạch, bảo mật và truy xuất nguồn gốc của dữ liệu.
C. Tự động hóa quá trình làm sạch dữ liệu.
D. Chỉ dùng để huấn luyện các mô hình học máy.

20. Thuật ngữ Overfitting trong học máy mô tả hiện tượng gì?

A. Mô hình học quá đơn giản, không nắm bắt được các mẫu hình phức tạp.
B. Mô hình học quá phức tạp, khớp với dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Mô hình học chậm do thiếu tài nguyên tính toán.
D. Mô hình học không xác định được lớp cho một số mẫu dữ liệu.

21. Trong các công cụ xử lý dữ liệu lớn, Hadoop là gì?

A. Một thuật toán học máy cụ thể.
B. Một framework mã nguồn mở để lưu trữ và xử lý các tập dữ liệu lớn phân tán.
C. Một ngôn ngữ lập trình cho khoa học dữ liệu.
D. Một công cụ trực quan hóa dữ liệu.

22. Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật nào giúp biểu diễn từ hoặc cụm từ dưới dạng vector số để máy tính có thể hiểu và xử lý?

A. Phân tích cảm xúc (Sentiment Analysis).
B. Biểu diễn từ (Word Embedding).
C. Nhận dạng thực thể có tên (Named Entity Recognition - NER).
D. Mô hình ngôn ngữ (Language Modeling).

23. Mô hình học không giám sát nào được sử dụng để nhóm các điểm dữ liệu tương tự nhau thành các cụm?

A. Hồi quy Logistic (Logistic Regression).
B. Máy vector hỗ trợ (Support Vector Machine - SVM).
C. Phân cụm K-Means (K-Means Clustering).
D. Cây quyết định (Decision Tree).

24. Khái niệm variance (phương sai) trong mô hình học máy đề cập đến điều gì?

A. Sai lệch hệ thống do các giả định đơn giản hóa quá mức của mô hình.
B. Khả năng của mô hình bị ảnh hưởng bởi các dao động hoặc nhiễu trong dữ liệu huấn luyện.
C. Độ chính xác của mô hình trên tập dữ liệu huấn luyện.
D. Tốc độ tính toán của thuật toán.

25. Mô hình học sâu (Deep Learning) nào thường được sử dụng để xử lý dữ liệu ảnh và nhận dạng đối tượng?

A. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN).
B. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN).
C. Mạng nơ-ron truyền thẳng (Feedforward Neural Network).
D. Máy vector hỗ trợ (Support Vector Machine - SVM).

1 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

1. Trong phân tích dữ liệu, bias (độ chệch) trong mô hình học máy đề cập đến điều gì?

2 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

2. Khi huấn luyện mô hình máy học, tập dữ liệu được chia thành các tập con nào để đảm bảo đánh giá hiệu suất một cách khách quan?

3 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

3. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số nào đo lường tỷ lệ các trường hợp được dự đoán đúng trên tổng số trường hợp?

4 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

4. Quá trình trực quan hóa dữ liệu (Data Visualization) chủ yếu nhằm mục đích gì?

5 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

5. Kỹ thuật nào giúp khám phá các mối quan hệ hoặc mẫu hình ẩn trong tập dữ liệu mà không cần nhãn (label) đi kèm?

6 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

6. Mô hình máy học nào thường được sử dụng để phân loại dữ liệu thành các nhóm hoặc lớp khác nhau?

7 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

7. Kỹ thuật feature engineering trong khoa học dữ liệu liên quan đến việc gì?

8 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

8. Công đoạn nào trong quy trình khoa học dữ liệu bao gồm việc làm sạch, biến đổi và tổ chức dữ liệu để sẵn sàng cho phân tích?

9 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

9. Trong phân tích dữ liệu, outlier (ngoại lai) là gì?

10 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

10. Thuật ngữ feature trong ngữ cảnh khoa học dữ liệu thường ám chỉ điều gì?

11 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

11. Chỉ số Precision trong bài toán phân loại đo lường điều gì?

12 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

12. Khi thực hiện phân tích A/B testing, mục đích chính là gì?

13 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

13. Trong phân tích chuỗi thời gian (Time Series Analysis), yếu tố nào biểu thị sự biến động theo chu kỳ lặp lại trong khoảng thời gian ngắn hơn một năm?

14 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

14. Trong phân tích văn bản, kỹ thuật TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

15 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

15. Khái niệm Data Mining (Khai phá dữ liệu) và Data Science (Khoa học dữ liệu) có mối quan hệ như thế nào?

16 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

16. Mô hình học máy nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như giá nhà hoặc nhiệt độ?

17 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

17. Trong khoa học dữ liệu, khái niệm Big Data thường đề cập đến tập dữ liệu có đặc điểm nào sau đây?

18 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

18. Kỹ thuật nào giúp giảm số lượng biến đầu vào trong một tập dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng?

19 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

19. Công nghệ Blockchain có thể ứng dụng trong khoa học dữ liệu như thế nào?

20 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

20. Thuật ngữ Overfitting trong học máy mô tả hiện tượng gì?

21 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

21. Trong các công cụ xử lý dữ liệu lớn, Hadoop là gì?

22 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

22. Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật nào giúp biểu diễn từ hoặc cụm từ dưới dạng vector số để máy tính có thể hiểu và xử lý?

23 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

23. Mô hình học không giám sát nào được sử dụng để nhóm các điểm dữ liệu tương tự nhau thành các cụm?

24 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

24. Khái niệm variance (phương sai) trong mô hình học máy đề cập đến điều gì?

25 / 25

Category: [Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

25. Mô hình học sâu (Deep Learning) nào thường được sử dụng để xử lý dữ liệu ảnh và nhận dạng đối tượng?