[Chân trời] Trắc nghiệm Khoa học máy tính 12 bài F16: Máy tính, thuật toán và Khoa học dữ liệu
1. Trong phân tích dữ liệu, Feature Engineering đóng vai trò gì để cải thiện hiệu suất của các mô hình học máy?
A. Loại bỏ các đặc trưng không liên quan để giảm chiều dữ liệu.
B. Tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có để làm nổi bật các mẫu hình có ý nghĩa, giúp mô hình học tốt hơn.
C. Chỉ đơn thuần là chọn ngẫu nhiên một tập hợp con các đặc trưng ban đầu.
D. Tự động hóa hoàn toàn quá trình lựa chọn đặc trưng mà không cần can thiệp thủ công.
2. Trong ngữ cảnh của Khoa học dữ liệu, Data Visualization (Trực quan hóa dữ liệu) có mục đích chính là gì?
A. Chỉ để làm cho báo cáo trông đẹp mắt hơn.
B. Giúp hiểu rõ hơn các mẫu hình, xu hướng, mối quan hệ và các điểm bất thường trong dữ liệu một cách trực quan và hiệu quả.
C. Thay thế hoàn toàn cho việc phân tích thống kê chuyên sâu.
D. Tự động hóa quá trình thu thập dữ liệu.
3. Một thuật toán sắp xếp có độ phức tạp thời gian O(n log n) sẽ hoạt động như thế nào khi kích thước dữ liệu đầu vào (n) tăng gấp đôi?
A. Thời gian thực thi sẽ tăng gấp bốn lần.
B. Thời gian thực thi sẽ tăng chậm hơn gấp đôi, khoảng xấp xỉ (2n) * log(2n) so với (n log n).
C. Thời gian thực thi sẽ tăng gấp đôi.
D. Thời gian thực thi sẽ giảm đi một nửa.
4. Trong các loại dữ liệu, dữ liệu phi cấu trúc (unstructured data) là gì và ví dụ điển hình nhất là gì?
A. Dữ liệu có định dạng bảng rõ ràng, ví dụ: bảng tính Excel.
B. Dữ liệu không có cấu trúc định trước hoặc mô hình tổ chức rõ ràng, ví dụ: văn bản email, hình ảnh, video.
C. Dữ liệu số được tổ chức trong cơ sở dữ liệu quan hệ.
D. Dữ liệu có cấu trúc cố định, được lưu trữ trong các tệp CSV.
5. Trong Khoa học dữ liệu, khái niệm Feature Selection (Lựa chọn đặc trưng) nhằm mục đích gì?
A. Tạo ra nhiều đặc trưng nhất có thể để mô hình hoạt động tốt hơn.
B. Chọn ra một tập hợp con các đặc trưng quan trọng và có ý nghĩa nhất từ dữ liệu gốc, loại bỏ các đặc trưng dư thừa hoặc không liên quan, để cải thiện hiệu suất và tốc độ của mô hình.
C. Chỉ đơn giản là lấy tất cả các đặc trưng ban đầu.
D. Thay đổi tên của các đặc trưng.
6. Trong thiết kế thuật toán, Đệ quy (Recursion) là một kỹ thuật mà một hàm tự gọi lại chính nó. Khi sử dụng đệ quy, yếu tố nào là quan trọng nhất để tránh vòng lặp vô hạn?
A. Sử dụng càng nhiều lời gọi đệ quy càng tốt.
B. Phải có một trường hợp cơ sở (base case) rõ ràng, là điều kiện để dừng việc gọi đệ quy.
C. Luôn luôn sử dụng tham số đầu vào là số.
D. Chỉ gọi đệ quy khi có kết nối Internet.
7. Trong Khoa học dữ liệu, khái niệm Big Data thường được mô tả bằng những đặc tính nào, và đặc tính nào là nền tảng cho sự phát triển của lĩnh vực này?
A. Chỉ 3V (Volume, Velocity, Variety); Volume là nền tảng.
B. 5V (Volume, Velocity, Variety, Veracity, Value); Value là nền tảng.
C. 5V (Volume, Velocity, Variety, Veracity, Value); Velocity là nền tảng.
D. 3V (Volume, Velocity, Variety); Variety là nền tảng.
8. Khi lập trình, việc sử dụng vòng lặp for và while đều nhằm mục đích thực hiện lặp lại một khối lệnh. Điểm khác biệt chính giữa chúng là gì?
A. Vòng lặp for dùng khi biết trước số lần lặp, còn while dùng khi điều kiện lặp phụ thuộc vào một biến đổi trong vòng lặp.
B. Vòng lặp while luôn có số lần lặp cố định, còn for thì không.
C. Không có sự khác biệt nào, chúng hoàn toàn thay thế được cho nhau.
D. Vòng lặp for chỉ dùng cho mảng, còn while dùng cho các kiểu dữ liệu khác.
9. Phát biểu nào sau đây mô tả đúng nhất về vai trò của Thuật toán trong Khoa học máy tính?
A. Thuật toán là phần cứng của máy tính.
B. Thuật toán là một tập hợp các bước hữu hạn, được định nghĩa rõ ràng và có thứ tự để giải quyết một bài toán hoặc thực hiện một nhiệm vụ.
C. Thuật toán chỉ là các câu lệnh trong một ngôn ngữ lập trình cụ thể.
D. Thuật toán là tên gọi khác của hệ điều hành.
10. Khi đánh giá hiệu quả của một thuật toán tìm kiếm trong một danh sách đã sắp xếp, thuật toán nào thường được coi là hiệu quả nhất?
A. Tìm kiếm tuần tự (Linear Search).
B. Tìm kiếm nhị phân (Binary Search).
C. Tìm kiếm theo bước nhảy (Jump Search).
D. Tìm kiếm theo mẫu (Pattern Search).
11. Tại sao việc lựa chọn thuật toán phù hợp lại quan trọng trong Khoa học máy tính, đặc biệt khi xử lý lượng lớn dữ liệu?
A. Để làm cho chương trình chạy chậm lại và dễ debug hơn.
B. Để đảm bảo chương trình hoạt động nhanh chóng, hiệu quả về tài nguyên và có thể mở rộng để xử lý các tập dữ liệu lớn hơn trong tương lai.
C. Chỉ để đáp ứng yêu cầu của giảng viên.
D. Để làm cho mã nguồn trông phức tạp hơn.
12. Một tập dữ liệu có kích thước rất lớn (hàng Terabyte hoặc Petabyte) thường được phân loại là gì trong lĩnh vực Khoa học dữ liệu?
A. Small Data.
B. Medium Data.
C. Big Data.
D. Tiny Data.
13. Một hệ thống máy tính hiện đại có thể được coi là một bộ máy thực thi các thuật toán. Quá trình này bao gồm những giai đoạn chính nào?
A. Thiết kế thuật toán, lập trình, biên dịch, thực thi.
B. Thu thập dữ liệu, làm sạch dữ liệu, xây dựng mô hình, đánh giá.
C. Nhập liệu, xử lý, xuất liệu, lưu trữ.
D. Phân tích yêu cầu, thiết kế hệ thống, triển khai, bảo trì.
14. Trong học máy, thuật ngữ Overfitting (Quá khớp) mô tả tình huống nào?
A. Mô hình học quá ít từ dữ liệu huấn luyện và không nắm bắt được các mẫu hình quan trọng.
B. Mô hình học quá kỹ các chi tiết và nhiễu trong dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới, chưa từng thấy.
C. Mô hình hoạt động hoàn hảo trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Mô hình không thể được huấn luyện do thiếu dữ liệu.
15. Đâu là đặc trưng quan trọng nhất của một thuật toán theo định nghĩa khoa học máy tính?
A. Phải được viết bằng ngôn ngữ lập trình Python.
B. Phải có khả năng chạy trên mọi loại máy tính.
C. Phải có tính xác định (mỗi bước thực hiện rõ ràng, không mơ hồ) và có điểm bắt đầu, điểm kết thúc.
D. Phải luôn cho ra kết quả chính xác tuyệt đối trong mọi tình huống.
16. Khái niệm Machine Learning (Học máy) trong Khoa học dữ liệu đề cập đến điều gì?
A. Tạo ra các robot có trí thông minh giống con người.
B. Lập trình cho máy tính thực hiện các tác vụ một cách rõ ràng, từng bước một.
C. Cho phép hệ thống máy tính học hỏi từ dữ liệu và cải thiện hiệu suất mà không cần được lập trình rõ ràng cho từng nhiệm vụ cụ thể.
D. Chỉ đơn giản là việc thu thập và lưu trữ dữ liệu.
17. Trong lập trình, khi nói về độ phức tạp thời gian của một thuật toán, ký hiệu O (Big O) dùng để biểu diễn điều gì?
A. Thời gian thực thi chính xác của thuật toán với mọi trường hợp.
B. Giới hạn trên của thời gian thực thi hoặc không gian bộ nhớ cần thiết của thuật toán khi kích thước đầu vào tăng lên vô hạn.
C. Thời gian thực thi trung bình của thuật toán.
D. Hiệu suất tối ưu của thuật toán trong mọi điều kiện.
18. Trong lĩnh vực Khoa học dữ liệu, Data Mining (Khai phá dữ liệu) tập trung vào khía cạnh nào?
A. Chỉ đơn giản là việc nhập dữ liệu vào hệ thống.
B. Khám phá các mẫu hình, quy luật, và kiến thức ẩn có giá trị từ các tập dữ liệu lớn.
C. Viết các chương trình máy tính để thực hiện các tác vụ cụ thể.
D. Thiết kế giao diện người dùng cho các ứng dụng.
19. Khi phân loại thuật toán dựa trên cách chúng xử lý dữ liệu đầu vào, thuật toán nào thường có độ phức tạp thời gian tốt nhất (tiến triển chậm nhất) cho các tập dữ liệu lớn?
A. Thuật toán có độ phức tạp O(n^2) (ví dụ: sắp xếp nổi bọt).
B. Thuật toán có độ phức tạp O(n log n) (ví dụ: sắp xếp nhanh - Quicksort).
C. Thuật toán có độ phức tạp O(n) (ví dụ: duyệt qua mảng một lần).
D. Thuật toán có độ phức tạp O(2^n) (ví dụ: một số thuật toán đệ quy vét cạn).
20. Đâu là một ví dụ về thuật toán trong đời sống hàng ngày, ngoài lĩnh vực máy tính?
A. Một bài hát.
B. Một công thức nấu ăn chi tiết từng bước.
C. Một bức tranh.
D. Một cuốn tiểu thuyết.
21. Trong Khoa học dữ liệu, Data Preprocessing (Tiền xử lý dữ liệu) là bước quan trọng vì lý do gì?
A. Nó đảm bảo dữ liệu hoàn toàn sạch sẽ và không có bất kỳ lỗi nào sau khi được thu thập.
B. Nó chuẩn bị dữ liệu thô thành một định dạng phù hợp và chất lượng cao cho các bước phân tích và mô hình hóa tiếp theo, giúp cải thiện độ chính xác và hiệu quả.
C. Nó tự động tạo ra các thuật toán tối ưu cho mọi loại dữ liệu.
D. Nó chỉ đơn thuần là việc lưu trữ dữ liệu vào cơ sở dữ liệu.
22. Một hệ thống máy tính bao gồm những thành phần cơ bản nào để có thể xử lý và lưu trữ thông tin?
A. Chỉ có CPU và RAM.
B. CPU, bộ nhớ (RAM và ROM), thiết bị nhập/xuất và hệ điều hành.
C. CPU, màn hình và bàn phím.
D. Bộ xử lý trung tâm (CPU), bộ nhớ chính (RAM), bộ nhớ phụ (ổ cứng) và các thiết bị nhập/xuất.
23. Kỹ thuật Data Cleaning (Làm sạch dữ liệu) trong Khoa học dữ liệu bao gồm những hoạt động chính nào?
A. Chỉ đơn giản là sắp xếp lại dữ liệu theo thứ tự bảng chữ cái.
B. Xử lý các giá trị bị thiếu, loại bỏ các bản ghi trùng lặp, sửa lỗi định dạng và chuẩn hóa dữ liệu.
C. Tạo biểu đồ trực quan hóa dữ liệu.
D. Chạy các mô hình học máy để dự đoán giá trị còn thiếu.
24. Trong kiến trúc máy tính, Bộ nhớ đệm (Cache memory) được sử dụng để làm gì?
A. Lưu trữ vĩnh viễn tất cả các chương trình đã cài đặt.
B. Lưu trữ tạm thời dữ liệu và lệnh mà CPU có khả năng sẽ cần truy cập sớm, nhằm giảm độ trễ truy cập bộ nhớ chính (RAM).
C. Kết nối máy tính với mạng Internet.
D. Làm mát các linh kiện bên trong máy tính.
25. Một thuật toán được coi là hiệu quả khi nào, xét trên khía cạnh thời gian và không gian sử dụng tài nguyên máy tính?
A. Thời gian thực thi ngắn và không gian bộ nhớ sử dụng ít, bất kể kích thước dữ liệu đầu vào.
B. Thời gian thực thi và không gian bộ nhớ sử dụng tăng trưởng chậm (ví dụ: theo hàm logarit hoặc tuyến tính) khi kích thước dữ liệu đầu vào tăng.
C. Thời gian thực thi luôn cố định và không gian bộ nhớ sử dụng không thay đổi.
D. Thời gian thực thi nhanh chóng nhưng có thể sử dụng lượng bộ nhớ không giới hạn.