1. Phương pháp nào sau đây thường được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Khoảng cách Euclidean (Euclidean distance)
B. Độ tương đồng Cosine (Cosine similarity)
C. Khoảng cách Manhattan (Manhattan distance)
D. Tất cả các đáp án trên
2. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào liên quan đến việc tạo ra các biểu diễn vector của các từ hoặc cụm từ sao cho các từ có nghĩa tương tự nằm gần nhau trong không gian vector?
A. Tách từ (Tokenization)
B. Word embeddings
C. Gán nhãn từ loại (Part-of-speech tagging)
D. Loại bỏ điểm dừng (Stop word removal)
3. Mô hình nào sau đây là một mô hình ngôn ngữ dựa trên transformer, được huấn luyện trên một lượng lớn dữ liệu văn bản và có khả năng tạo ra văn bản mạch lạc và tự nhiên?
A. Word2Vec
B. GloVe
C. BERT
D. TF-IDF
4. Mô hình nào sau đây được sử dụng để tạo ra các câu trả lời tự nhiên và phù hợp trong một hệ thống trả lời câu hỏi?
A. Mô hình Markov ẩn (Hidden Markov Model)
B. Mạng nơ-ron hồi quy (Recurrent Neural Network)
C. Transformer
D. Bag-of-Words
5. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào thường được sử dụng để giảm số lượng từ trong văn bản bằng cách loại bỏ các từ phổ biến như `the`, `a`, `is`?
A. Phân tích cú pháp (Parsing)
B. Loại bỏ điểm dừng (Stop word removal)
C. Gán nhãn từ loại (Part-of-speech tagging)
D. Nhận dạng thực thể có tên (Named entity recognition)
6. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để phát hiện các chủ đề chính trong một tập hợp các văn bản?
A. Phân tích tình cảm (Sentiment analysis)
B. Mô hình hóa chủ đề (Topic modeling)
C. Nhận dạng thực thể có tên (Named entity recognition)
D. Tóm tắt văn bản (Text summarization)
7. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để xác định mối quan hệ giữa các từ và cụm từ trong một câu, tạo ra một cấu trúc cây biểu diễn cú pháp của câu đó?
A. Tách từ (Tokenization)
B. Gán nhãn từ loại (Part-of-speech tagging)
C. Phân tích cú pháp (Parsing)
D. Loại bỏ điểm dừng (Stop word removal)
8. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để chuyển đổi một từ về dạng gốc của nó (ví dụ: `running` thành `run`)?
A. Tách từ (Tokenization)
B. Gán nhãn từ loại (Part-of-speech tagging)
C. Gốc hóa từ (Stemming)
D. Bổ chính từ (Lemmatization)
9. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để chia một câu thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ?
A. Tách từ (Tokenization)
B. Gán nhãn từ loại (Part-of-speech tagging)
C. Phân tích cú pháp (Parsing)
D. Loại bỏ điểm dừng (Stop word removal)
10. Trong các mô hình word embedding, mô hình nào cố gắng dự đoán các từ xung quanh một từ mục tiêu?
A. Bag-of-Words
B. TF-IDF
C. Word2Vec Skip-gram
D. GloVe
11. Mô hình nào sau đây là một mô hình ngôn ngữ dựa trên mạng nơ-ron biến áp (transformer), được sử dụng rộng rãi trong các tác vụ tạo sinh văn bản như viết truyện, tạo mã và dịch ngôn ngữ?
A. BERT
B. GPT
C. Word2Vec
D. GloVe
12. Mô hình nào sau đây thường được sử dụng để biểu diễn văn bản dưới dạng vector, trong đó mỗi chiều biểu thị tần suất xuất hiện của một từ trong văn bản?
A. Word2Vec
B. GloVe
C. Bag-of-Words
D. BERT
13. Trong lĩnh vực trả lời câu hỏi (Question Answering), kỹ thuật nào liên quan đến việc tìm kiếm một đoạn văn bản trong một tài liệu chứa câu trả lời cho một câu hỏi đã cho?
A. Phân tích tình cảm (Sentiment analysis)
B. Nhận dạng thực thể có tên (Named entity recognition)
C. Trích xuất thông tin (Information extraction)
D. Phân loại văn bản (Text classification)
14. Mô hình ngôn ngữ nào dựa trên mạng nơ-ron và sử dụng các lớp ẩn để dự đoán từ tiếp theo trong một chuỗi?
A. Bag-of-Words
B. TF-IDF
C. Mô hình Markov ẩn (Hidden Markov Model)
D. Mạng nơ-ron hồi quy (Recurrent Neural Network)
15. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để sửa lỗi chính tả và ngữ pháp trong văn bản?
A. Phân tích cú pháp (Parsing)
B. Kiểm tra chính tả và ngữ pháp (Spell and grammar checking)
C. Nhận dạng thực thể có tên (Named entity recognition)
D. Tóm tắt văn bản (Text summarization)
16. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào liên quan đến việc chuyển đổi văn bản thành một dạng số mà máy tính có thể hiểu được?
A. Tách từ (Tokenization)
B. Vector hóa văn bản (Text vectorization)
C. Gán nhãn từ loại (Part-of-speech tagging)
D. Loại bỏ điểm dừng (Stop word removal)
17. Trong xử lý ngôn ngữ tự nhiên, thuật ngữ nào mô tả việc xác định ngôn ngữ mà một đoạn văn bản được viết?
A. Dịch máy (Machine translation)
B. Phân tích tình cảm (Sentiment analysis)
C. Nhận dạng ngôn ngữ (Language detection)
D. Tóm tắt văn bản (Text summarization)
18. Trong xử lý ngôn ngữ tự nhiên, thuật ngữ nào mô tả việc giải quyết sự mơ hồ về nghĩa của một từ dựa trên ngữ cảnh xung quanh nó?
A. Phân tích hình thái (Morphological analysis)
B. Giải nghĩa từ (Word sense disambiguation)
C. Phân tích cú pháp (Parsing)
D. Phân tích ngữ nghĩa (Semantic analysis)
19. Phương pháp nào sau đây được sử dụng để giảm chiều dữ liệu trong word embeddings, giúp giảm kích thước mô hình và tăng tốc độ tính toán?
A. Tách từ (Tokenization)
B. Phân tích thành phần chính (Principal Component Analysis - PCA)
C. Loại bỏ điểm dừng (Stop word removal)
D. Gán nhãn từ loại (Part-of-speech tagging)
20. Trong ngữ cảnh của mô hình ngôn ngữ, perplexity là gì?
A. Một kỹ thuật để tăng tốc độ huấn luyện mô hình.
B. Một độ đo đánh giá khả năng dự đoán của mô hình.
C. Một phương pháp để loại bỏ nhiễu trong dữ liệu.
D. Một thuật toán để tìm kiếm các từ đồng nghĩa.
21. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào liên quan đến việc xác định vai trò ngữ pháp của mỗi từ trong một câu (ví dụ: danh từ, động từ, tính từ)?
A. Tách từ (Tokenization)
B. Gán nhãn từ loại (Part-of-speech tagging)
C. Phân tích cú pháp (Parsing)
D. Nhận dạng thực thể có tên (Named entity recognition)
22. Phương pháp nào sau đây được sử dụng để đánh giá hiệu suất của một mô hình dịch máy bằng cách so sánh bản dịch của mô hình với một hoặc nhiều bản dịch tham khảo?
A. Độ chính xác (Accuracy)
B. Độ đo F1 (F1-score)
C. BLEU (Bilingual Evaluation Understudy)
D. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
23. Trong ngữ cảnh của chatbot, thuật ngữ nào mô tả quá trình hiểu ý định của người dùng từ tin nhắn của họ?
A. Tạo phản hồi (Response generation)
B. Phân tích tình cảm (Sentiment analysis)
C. Nhận dạng ý định (Intent recognition)
D. Quản lý hội thoại (Dialogue management)
24. Mô hình nào sau đây là một kiến trúc mạng nơ-ron đặc biệt hiệu quả trong việc xử lý các chuỗi có độ dài thay đổi, như văn bản?
A. Mạng nơ-ron tích chập (Convolutional Neural Network)
B. Mạng nơ-ron hồi quy (Recurrent Neural Network)
C. Mạng nơ-ron lan truyền ngược (Backpropagation Neural Network)
D. Mạng nơ-ron tự mã hóa (Autoencoder Neural Network)
25. Mô hình ngôn ngữ nào sử dụng cơ chế attention để tập trung vào các phần quan trọng nhất của câu khi dịch từ ngôn ngữ này sang ngôn ngữ khác?
A. Mô hình Markov ẩn (Hidden Markov Model)
B. Mạng nơ-ron hồi quy (Recurrent Neural Network)
C. Transformer
D. Bag-of-Words
26. Phương pháp nào sau đây giúp xác định các thực thể có tên (Named Entities) như tên người, tổ chức, địa điểm trong một đoạn văn bản?
A. Phân tích cú pháp (Parsing)
B. Phân tích hình thái (Morphological analysis)
C. Nhận dạng thực thể có tên (Named Entity Recognition)
D. Phân tích ngữ nghĩa (Semantic analysis)
27. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để nhóm các văn bản tương tự lại với nhau dựa trên nội dung của chúng?
A. Phân loại văn bản (Text classification)
B. Phân cụm văn bản (Text clustering)
C. Tóm tắt văn bản (Text summarization)
D. Dịch máy (Machine translation)
28. Thuật ngữ nào mô tả quá trình tự động tạo ra một bản tóm tắt ngắn gọn từ một văn bản dài hơn?
A. Phân tích tình cảm (Sentiment analysis)
B. Dịch máy (Machine translation)
C. Tóm tắt văn bản (Text summarization)
D. Trả lời câu hỏi (Question answering)
29. Trong các kỹ thuật word embedding, phương pháp nào huấn luyện các vector từ bằng cách phân tích ma trận đồng xuất hiện toàn cục của các từ trong một tập văn bản?
A. Word2Vec
B. GloVe
C. FastText
D. TF-IDF
30. Trong phân tích tình cảm (sentiment analysis), thuật ngữ nào mô tả việc xác định xem một đoạn văn bản thể hiện cảm xúc tích cực, tiêu cực hay trung tính?
A. Phân tích cú pháp (Parsing)
B. Phân loại văn bản (Text classification)
C. Nhận dạng thực thể có tên (Named entity recognition)
D. Tóm tắt văn bản (Text summarization)