1. Kỹ thuật nào sau đây thường được sử dụng để tạo ra các câu trả lời tự động cho các câu hỏi dựa trên một đoạn văn bản cho trước?
A. Text Summarization
B. Question Answering
C. Machine Translation
D. Topic Modeling
2. Kỹ thuật nào trong NLP giúp xác định vai trò ngữ pháp của một từ trong câu, ví dụ như danh từ, động từ, tính từ?
A. Named Entity Recognition (NER)
B. Part-of-Speech Tagging (POS)
C. Sentiment Analysis
D. Text Summarization
3. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật `word sense disambiguation` (WSD) giải quyết vấn đề gì?
A. Loại bỏ các từ không quan trọng trong văn bản.
B. Xác định ý nghĩa chính xác của một từ trong ngữ cảnh cụ thể.
C. Chuyển đổi văn bản thành giọng nói.
D. Tạo ra các từ đồng nghĩa cho một từ.
4. Kỹ thuật nào sau đây giúp tóm tắt một văn bản dài thành một phiên bản ngắn gọn hơn mà vẫn giữ được những ý chính?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
5. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán?
A. Tokenization
B. Stemming
C. Principal Component Analysis (PCA)
D. Part-of-Speech Tagging
6. Trong xử lý ngôn ngữ tự nhiên, `semantic similarity` đề cập đến điều gì?
A. Sự giống nhau về cách viết giữa hai từ.
B. Sự giống nhau về cấu trúc ngữ pháp giữa hai câu.
C. Sự giống nhau về ý nghĩa giữa hai từ, câu hoặc đoạn văn bản.
D. Sự giống nhau về tần suất xuất hiện của hai từ trong một văn bản.
7. Phương pháp nào sau đây giúp cải thiện hiệu suất của mô hình NLP bằng cách sử dụng dữ liệu từ các tác vụ liên quan?
A. Regularization
B. Transfer Learning
C. Normalization
D. Dimensionality Reduction
8. Trong xử lý ngôn ngữ tự nhiên, `syntactic parsing` là gì?
A. Quá trình loại bỏ các từ không quan trọng trong câu.
B. Quá trình phân tích cấu trúc ngữ pháp của một câu.
C. Quá trình chuyển đổi văn bản thành giọng nói.
D. Quá trình tìm kiếm các từ đồng nghĩa cho một từ.
9. Thuật toán nào thường được sử dụng để đánh giá hiệu suất của mô hình dịch máy bằng cách so sánh văn bản được dịch với văn bản tham chiếu?
A. Accuracy
B. Precision
C. BLEU (Bilingual Evaluation Understudy)
D. Recall
10. Trong xử lý ngôn ngữ tự nhiên, `zero-shot learning` là gì?
A. Một phương pháp huấn luyện mô hình mà không cần bất kỳ dữ liệu huấn luyện nào.
B. Một phương pháp huấn luyện mô hình chỉ với dữ liệu âm tính.
C. Một phương pháp cho phép mô hình nhận biết các lớp hoặc tác vụ mà nó chưa từng được huấn luyện trực tiếp.
D. Một phương pháp để giảm kích thước của mô hình xuống 0.
11. Trong ngữ cảnh của mô hình ngôn ngữ, `perplexity` là gì?
A. Một phương pháp để tăng tốc độ huấn luyện mô hình.
B. Một độ đo về khả năng dự đoán của mô hình; perplexity thấp hơn cho thấy mô hình tốt hơn.
C. Một kỹ thuật để giảm kích thước của mô hình.
D. Một phương pháp để cải thiện độ chính xác của mô hình.
12. Trong xử lý ngôn ngữ tự nhiên, `n-gram` là gì?
A. Một phương pháp mã hóa văn bản.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một kỹ thuật để loại bỏ nhiễu từ văn bản.
D. Một thuật toán để tìm kiếm thông tin.
13. Kỹ thuật nào sau đây được sử dụng để nhóm các văn bản tương tự lại với nhau dựa trên nội dung của chúng?
A. Text Summarization
B. Text Classification
C. Text Clustering
D. Text Generation
14. Mục tiêu chính của kỹ thuật `Named Entity Recognition` (NER) là gì?
A. Phân tích cảm xúc của văn bản.
B. Tóm tắt nội dung chính của văn bản.
C. Xác định và phân loại các thực thể có tên (ví dụ: tên người, tổ chức, địa điểm) trong văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
15. Mô hình ngôn ngữ BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng vì điều gì?
A. Chỉ có thể xử lý văn bản tiếng Anh.
B. Chỉ có thể sử dụng cho tác vụ phân loại văn bản.
C. Có khả năng hiểu ngữ cảnh hai chiều của từ trong câu.
D. Chỉ có thể sinh văn bản, không thể hiểu văn bản.
16. Kỹ thuật nào trong NLP giúp tạo ra các biểu diễn vector cho các câu hoặc đoạn văn bản, thay vì chỉ cho các từ?
A. Word Embedding
B. Document Embedding
C. Part-of-Speech Tagging
D. Named Entity Recognition
17. Mô hình ngôn ngữ nào dựa trên kiến trúc transformer và được sử dụng rộng rãi cho các tác vụ sinh văn bản và dịch máy?
A. Recurrent Neural Network (RNN)
B. Long Short-Term Memory (LSTM)
C. Gated Recurrent Unit (GRU)
D. Generative Pre-trained Transformer (GPT)
18. Phương pháp nào sau đây thường được sử dụng để chuẩn hóa văn bản bằng cách chuyển đổi tất cả các ký tự về chữ thường?
A. Tokenization
B. Lowercasing
C. Stemming
D. Stop word removal
19. Mục tiêu của `Topic Modeling` trong NLP là gì?
A. Dự đoán từ tiếp theo trong một câu.
B. Phân loại văn bản dựa trên chủ đề.
C. Tự động tóm tắt văn bản.
D. Tìm ra các chủ đề ẩn trong một tập hợp các văn bản.
20. Phương pháp nào sau đây thường được sử dụng để giảm kích thước từ vựng bằng cách gộp các từ có chung gốc từ?
A. Tokenization
B. Stop word removal
C. Stemming
D. Part-of-speech tagging
21. Trong ngữ cảnh của word embeddings, điều gì thể hiện mối quan hệ ngữ nghĩa giữa các từ?
A. Vị trí của chúng trong câu.
B. Khoảng cách giữa các vector biểu diễn chúng trong không gian vector.
C. Tần suất xuất hiện của chúng trong văn bản.
D. Số lượng ký tự trong từ.
22. Kỹ thuật nào trong NLP được sử dụng để xác định ý kiến, thái độ hoặc cảm xúc được thể hiện trong một đoạn văn bản?
A. Topic Modeling
B. Sentiment Analysis
C. Machine Translation
D. Text Generation
23. Trong xử lý ngôn ngữ tự nhiên, `knowledge graph` là gì?
A. Một phương pháp để mã hóa văn bản.
B. Một biểu đồ tri thức thể hiện các thực thể và mối quan hệ giữa chúng.
C. Một kỹ thuật để loại bỏ nhiễu từ văn bản.
D. Một thuật toán để tìm kiếm thông tin.
24. Mô hình nào sau đây thuộc về kiến trúc sequence-to-sequence và thường được sử dụng trong các tác vụ như dịch máy và tóm tắt văn bản?
A. Support Vector Machine (SVM)
B. Convolutional Neural Network (CNN)
C. Recurrent Neural Network (RNN) with Encoder-Decoder
D. Decision Tree
25. Phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của các biến thể từ (ví dụ: `running`, `ran`, `runs`) bằng cách đưa chúng về dạng gốc?
A. Tokenization
B. Stop word removal
C. Stemming/Lemmatization
D. Part-of-speech tagging
26. Trong lĩnh vực chatbot, kỹ thuật nào cho phép chatbot hiểu ý định của người dùng từ câu hỏi hoặc yêu cầu của họ?
A. Text Summarization
B. Machine Translation
C. Intent Recognition
D. Topic Modeling
27. Trong xử lý ngôn ngữ tự nhiên, `stop words` là gì và tại sao chúng thường bị loại bỏ?
A. Các từ mang tính chất xúc phạm cần được kiểm duyệt.
B. Các từ phổ biến (ví dụ: `the`, `a`, `is`) không mang nhiều ý nghĩa và có thể gây nhiễu cho mô hình.
C. Các từ mới xuất hiện gần đây trong từ điển.
D. Các từ được sử dụng để kết thúc một câu.
28. Trong xử lý ngôn ngữ tự nhiên, `coreference resolution` là gì?
A. Quá trình chuyển đổi văn bản thành mã máy.
B. Quá trình xác định tất cả các biểu thức tham chiếu đến cùng một thực thể trong một văn bản.
C. Quá trình loại bỏ các lỗi chính tả trong văn bản.
D. Quá trình tạo ra các câu trả lời cho một câu hỏi.
29. Trong xử lý ngôn ngữ tự nhiên, thuật ngữ `chatbot` thường đề cập đến ứng dụng nào?
A. Một hệ thống dịch máy tự động.
B. Một chương trình máy tính được thiết kế để mô phỏng cuộc trò chuyện với người dùng.
C. Một công cụ để phân tích cảm xúc của văn bản.
D. Một hệ thống để tạo ra các bài thơ tự động.
30. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để chia một chuỗi văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ?
A. Tokenization
B. Stemming
C. Lemmatization
D. Stop word removal