1. Trong xử lý ngôn ngữ tự nhiên, `Cross-Entropy Loss` thường được sử dụng trong nhiệm vụ nào?
A. Regression
B. Classification
C. Clustering
D. Dimensionality Reduction
2. Trong xử lý ngôn ngữ tự nhiên, `regularization` được sử dụng để giải quyết vấn đề nào?
A. Overfitting
B. Underfitting
C. Data Imbalance
D. Missing Data
3. Trong lĩnh vực chatbot, kỹ thuật nào sau đây được sử dụng để hiểu ý định của người dùng từ câu hỏi hoặc yêu cầu của họ?
A. Named Entity Recognition (NER)
B. Intent Recognition
C. Text Generation
D. Machine Translation
4. Trong ngữ cảnh của máy dịch (Machine Translation), `Attention Mechanism` giúp ích gì?
A. Tăng tốc độ tính toán của mô hình.
B. Cho phép mô hình tập trung vào các phần liên quan nhất của câu đầu vào khi tạo ra câu đầu ra.
C. Giảm kích thước bộ nhớ cần thiết để lưu trữ mô hình.
D. Cải thiện khả năng xử lý các ngôn ngữ có cấu trúc ngữ pháp phức tạp.
5. Kỹ thuật nào sau đây được sử dụng để tạo ra văn bản mới một cách tự động?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
6. Trong xử lý ngôn ngữ tự nhiên, `Word Embedding` là gì?
A. Một phương pháp để mã hóa văn bản thành hình ảnh.
B. Một kỹ thuật để biểu diễn các từ dưới dạng các vectơ số trong một không gian nhiều chiều.
C. Một thuật toán để phân loại văn bản dựa trên chủ đề.
D. Một phương pháp để tạo ra các từ mới từ một tập hợp các từ đã cho.
7. Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật nào thường được sử dụng để giảm số chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?
A. Phân tích cú pháp (Parsing)
B. Mô hình hóa chủ đề (Topic Modeling)
C. Biểu diễn Word Embedding
D. Phân tích tình cảm (Sentiment Analysis)
8. Trong xử lý ngôn ngữ tự nhiên, `Bag of Words` (BoW) là gì?
A. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.
B. Một phương pháp biểu diễn văn bản dưới dạng một tập hợp các từ không theo thứ tự.
C. Một kỹ thuật để phân tích cấu trúc ngữ pháp của một câu.
D. Một thuật toán để tóm tắt văn bản.
9. Trong ngữ cảnh của máy dịch (Machine Translation), `BLEU score` được sử dụng để làm gì?
A. Đánh giá tốc độ dịch của mô hình.
B. Đánh giá chất lượng bản dịch bằng cách so sánh nó với các bản dịch tham khảo.
C. Đo lường kích thước của mô hình dịch.
D. Xác định ngôn ngữ nguồn và ngôn ngữ đích.
10. Trong xử lý ngôn ngữ tự nhiên, `TF-IDF` là viết tắt của cụm từ nào?
A. Term Frequency - Inverse Document Frequency
B. Text Frequency - Inverse Data Frequency
C. Term Frequency - Identical Document Frequency
D. Text Frequency - Identical Data Frequency
11. Phương pháp nào sau đây thường được sử dụng để giải quyết vấn đề `out-of-vocabulary` (OOV) trong các mô hình ngôn ngữ?
A. Stemming
B. Tokenization
C. Byte Pair Encoding (BPE)
D. Part-of-Speech Tagging
12. Trong ngữ cảnh của mô hình ngôn ngữ, `perplexity` được sử dụng để đo lường điều gì?
A. Độ chính xác của mô hình trong việc dự đoán từ tiếp theo trong một câu.
B. Độ phức tạp của mô hình.
C. Khả năng của mô hình trong việc xử lý các câu dài.
D. Sự không chắc chắn của mô hình khi dự đoán một chuỗi văn bản.
13. Trong lĩnh vực hỏi đáp tự động (Question Answering), kỹ thuật nào sau đây được sử dụng để tìm kiếm câu trả lời cho một câu hỏi trong một đoạn văn bản?
A. Text Summarization
B. Text Classification
C. Information Retrieval
D. Text Generation
14. Phương pháp nào sau đây thường được sử dụng để nhóm các văn bản tương tự lại với nhau dựa trên nội dung của chúng?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
15. Trong lĩnh vực phân tích tình cảm (Sentiment Analysis), mục tiêu chính là gì?
A. Xác định chủ đề chính của một văn bản.
B. Xác định cảm xúc hoặc ý kiến được thể hiện trong một văn bản.
C. Xác định các thực thể có tên trong một văn bản.
D. Tóm tắt một văn bản dài thành một phiên bản ngắn gọn hơn.
16. Kỹ thuật nào sau đây được sử dụng để loại bỏ các từ phổ biến nhưng ít mang ý nghĩa (ví dụ: `the`, `a`, `is`) khỏi văn bản?
A. Tokenization
B. Stemming
C. Stop Word Removal
D. Part-of-Speech Tagging
17. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu văn bản thành định dạng số mà máy tính có thể hiểu được?
A. Tokenization
B. Vectorization
C. Stemming
D. Stop Word Removal
18. Phương pháp nào sau đây giúp cải thiện hiệu suất của mô hình ngôn ngữ bằng cách sử dụng dữ liệu từ một nhiệm vụ liên quan khác?
A. Transfer Learning
B. Active Learning
C. Reinforcement Learning
D. Unsupervised Learning
19. Kỹ thuật nào sau đây được sử dụng để xác định vai trò ngữ pháp của một từ trong câu (ví dụ: danh từ, động từ, tính từ)?
A. Named Entity Recognition (NER)
B. Part-of-Speech Tagging (POS Tagging)
C. Sentiment Analysis
D. Text Summarization
20. Kỹ thuật nào sau đây được sử dụng để tóm tắt một văn bản dài thành một phiên bản ngắn gọn hơn trong khi vẫn giữ lại những thông tin quan trọng nhất?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
21. Phương pháp nào sau đây được sử dụng để chia một chuỗi văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc câu?
A. Tokenization
B. Stemming
C. Stop Word Removal
D. Part-of-Speech Tagging
22. Kỹ thuật nào sau đây được sử dụng để tạo ra các từ mới hoặc sửa lỗi chính tả trong văn bản?
A. Text Summarization
B. Text Classification
C. Text Correction
D. Text Generation
23. Phương pháp nào sau đây được sử dụng để phân loại văn bản vào các danh mục khác nhau dựa trên nội dung của chúng?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
24. Trong kiến trúc Transformer, cơ chế `Self-Attention` có vai trò gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Giảm kích thước bộ nhớ cần thiết để lưu trữ mô hình.
C. Cho phép mô hình tập trung vào các phần khác nhau của câu đầu vào để hiểu rõ hơn về mối quan hệ giữa các từ.
D. Cải thiện khả năng xử lý các ngôn ngữ có cấu trúc ngữ pháp phức tạp.
25. Kỹ thuật nào sau đây được sử dụng để xử lý các từ có nhiều nghĩa khác nhau (polysemy) trong một văn bản?
A. Word Sense Disambiguation (WSD)
B. Part-of-Speech Tagging (POS Tagging)
C. Named Entity Recognition (NER)
D. Text Summarization
26. Phương pháp nào sau đây được sử dụng để xác định các thực thể có tên (ví dụ: tên người, tổ chức, địa điểm) trong một văn bản?
A. Part-of-Speech Tagging (POS Tagging)
B. Sentiment Analysis
C. Named Entity Recognition (NER)
D. Text Summarization
27. Kỹ thuật `Stemming` trong NLP có tác dụng gì?
A. Chuyển đổi một từ về dạng gốc của nó bằng cách loại bỏ các hậu tố.
B. Phân tích cấu trúc ngữ pháp của một câu.
C. Xác định các thực thể có tên trong một văn bản.
D. Phân loại văn bản dựa trên chủ đề.
28. Phương pháp nào sau đây giúp giảm nhiễu và tăng cường tính nhất quán của dữ liệu văn bản bằng cách chuyển đổi tất cả các từ về dạng chữ thường?
A. Tokenization
B. Lowercasing
C. Stop Word Removal
D. Stemming
29. Phương pháp nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Sentiment Analysis
B. Cosine Similarity
C. Part-of-Speech Tagging
D. Named Entity Recognition
30. Trong xử lý ngôn ngữ tự nhiên, `n-gram` đề cập đến điều gì?
A. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một phương pháp để phân tích cấu trúc ngữ pháp của một câu.
D. Một kỹ thuật để tóm tắt văn bản.