SoftMax Layer - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 6728
- Share
- Tweet
#1

SoftMax Layer

20-04-2025, 05:03 PM

Hình ảnh này mô tả giai đoạn cuối cùng trong pipeline của một mô hình ngôn ngữ (LLM) – đó là bước Dự đoán từ tiếp theo (Next Token Prediction), sử dụng kiến trúc mạng neural nhiều lớp (feed-forward layers) để tính toán xác suất phân phối từ vựng đầu ra.
🧠 Giải thích chi tiết các bước:

🎯 Mục tiêu:
Dựa trên ngữ cảnh hiện tại, mô hình cần dự đoán từ tiếp theo là gì?

⚙️ Các bước xử lý:

1. Từ đầu vào → vector ẩn (hidden states)
Các từ đầu vào như "A", "How", "monkey", "banana"... được mã hóa thành vector qua các bước tokenization → embedding → positional encoding → attention layers.

2. Truyền qua các lớp mạng neural (dense layers)
Vector ẩn đầu vào (biểu diễn toàn bộ câu hoặc đoạn) được đưa vào một hoặc nhiều lớp fully connected (feed-forward network).

Các lớp này học các mô hình ngôn ngữ (ngữ pháp, logic, cấu trúc câu…) để cho ra điểm số (score) cho từng từ trong từ điển.

3. Tính toán logits (scores)
Mỗi từ trong từ điển (vocab) sẽ được gán một score (giá trị thô) — thể hiện mức độ phù hợp với ngữ cảnh hiện tại.

Ví dụ:
"You": 4

"Monkey": 3

"They": -1

"How": 0

...

4. Softmax → Xác suất (probabilities)
Tất cả scores sẽ được đưa vào hàm softmax để biến đổi thành xác suất.

Softmax đảm bảo tổng xác suất bằng 1.

Các từ có điểm cao sẽ được ưu tiên chọn là từ tiếp theo.

5. Dự đoán
Mô hình có thể:
Chọn từ có xác suất cao nhất (greedy decoding)

Hoặc lấy mẫu theo phân phối xác suất (sampling) để tăng tính đa dạng

🧠 Tóm tắt dễ hiểu:

Cơ chế dự đoán trong LLM giống như trò chơi "đoán từ" có xác suất:
Mô hình hiểu ngữ cảnh (embedding + attention).

Truyền qua các lớp neural để chấm điểm các từ trong từ điển.

Dùng softmax để biến điểm thành xác suất.

Chọn từ phù hợp nhất làm output tiếp theo.

🔁 Ví dụ thực tế:

Nếu bạn nhập: "The monkey ate the"
Mô hình có thể trả về "banana" vì xác suất cao nhất là từ đó.

Hoặc "apple" nếu bạn dùng temperature sampling để tạo nội dung đa dạng.

Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None