Hình ảnh này mô tả giai đoạn cuối cùng trong pipeline của một mô hình ngôn ngữ (LLM) – đó là bước Dự đoán từ tiếp theo (Next Token Prediction), sử dụng kiến trúc mạng neural nhiều lớp (feed-forward layers) để tính toán xác suất phân phối từ vựng đầu ra.
🧠 Giải thích chi tiết các bước:
🎯 Mục tiêu:
⚙️ Các bước xử lý:
1. Từ đầu vào → vector ẩn (hidden states)
🧠 Tóm tắt dễ hiểu:
Cơ chế dự đoán trong LLM giống như trò chơi "đoán từ" có xác suất:
🔁 Ví dụ thực tế:
Nếu bạn nhập: "The monkey ate the"

🧠 Giải thích chi tiết các bước:
🎯 Mục tiêu:
Dựa trên ngữ cảnh hiện tại, mô hình cần dự đoán từ tiếp theo là gì?
⚙️ Các bước xử lý:
1. Từ đầu vào → vector ẩn (hidden states)
- Các từ đầu vào như "A", "How", "monkey", "banana"... được mã hóa thành vector qua các bước tokenization → embedding → positional encoding → attention layers.
- Vector ẩn đầu vào (biểu diễn toàn bộ câu hoặc đoạn) được đưa vào một hoặc nhiều lớp fully connected (feed-forward network).
- Các lớp này học các mô hình ngôn ngữ (ngữ pháp, logic, cấu trúc câu…) để cho ra điểm số (score) cho từng từ trong từ điển.
- Mỗi từ trong từ điển (vocab) sẽ được gán một score (giá trị thô) — thể hiện mức độ phù hợp với ngữ cảnh hiện tại.
- Ví dụ:
- "You": 4
- "Monkey": 3
- "They": -1
- "How": 0
- ...
- Tất cả scores sẽ được đưa vào hàm softmax để biến đổi thành xác suất.
- Softmax đảm bảo tổng xác suất bằng 1.
- Các từ có điểm cao sẽ được ưu tiên chọn là từ tiếp theo.
- Mô hình có thể:
- Chọn từ có xác suất cao nhất (greedy decoding)
- Hoặc lấy mẫu theo phân phối xác suất (sampling) để tăng tính đa dạng
🧠 Tóm tắt dễ hiểu:
Cơ chế dự đoán trong LLM giống như trò chơi "đoán từ" có xác suất:
- Mô hình hiểu ngữ cảnh (embedding + attention).
- Truyền qua các lớp neural để chấm điểm các từ trong từ điển.
- Dùng softmax để biến điểm thành xác suất.
- Chọn từ phù hợp nhất làm output tiếp theo.
🔁 Ví dụ thực tế:
Nếu bạn nhập: "The monkey ate the"
- Mô hình có thể trả về "banana" vì xác suất cao nhất là từ đó.
- Hoặc "apple" nếu bạn dùng temperature sampling để tạo nội dung đa dạng.