Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.

Announcement

Collapse
No announcement yet.

SoftMax Layer

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • SoftMax Layer

    Hình ảnh này mô tả giai đoạn cuối cùng trong pipeline của một mô hình ngôn ngữ (LLM) – đó là bước Dự đoán từ tiếp theo (Next Token Prediction), sử dụng kiến trúc mạng neural nhiều lớp (feed-forward layers) để tính toán xác suất phân phối từ vựng đầu ra.
    🧠 Giải thích chi tiết các bước:

    🎯 Mục tiêu:
    Dựa trên ngữ cảnh hiện tại, mô hình cần dự đoán từ tiếp theo là gì?

    ⚙️ Các bước xử lý:

    1. Từ đầu vào → vector ẩn (hidden states)
    • Các từ đầu vào như "A", "How", "monkey", "banana"... được mã hóa thành vector qua các bước tokenization → embedding → positional encoding → attention layers.
    2. Truyền qua các lớp mạng neural (dense layers)
    • Vector ẩn đầu vào (biểu diễn toàn bộ câu hoặc đoạn) được đưa vào một hoặc nhiều lớp fully connected (feed-forward network).
    • Các lớp này học các mô hình ngôn ngữ (ngữ pháp, logic, cấu trúc câu…) để cho ra điểm số (score) cho từng từ trong từ điển.
    3. Tính toán logits (scores)
    • Mỗi từ trong từ điển (vocab) sẽ được gán một score (giá trị thô) — thể hiện mức độ phù hợp với ngữ cảnh hiện tại.
    • Ví dụ:
      • "You": 4
      • "Monkey": 3
      • "They": -1
      • "How": 0
      • ...
    4. Softmax → Xác suất (probabilities)
    • Tất cả scores sẽ được đưa vào hàm softmax để biến đổi thành xác suất.
    • Softmax đảm bảo tổng xác suất bằng 1.
    • Các từ có điểm cao sẽ được ưu tiên chọn là từ tiếp theo.
    5. Dự đoán
    • Mô hình có thể:
      • Chọn từ có xác suất cao nhất (greedy decoding)
      • Hoặc lấy mẫu theo phân phối xác suất (sampling) để tăng tính đa dạng

    🧠 Tóm tắt dễ hiểu:

    Cơ chế dự đoán trong LLM giống như trò chơi "đoán từ" có xác suất:
    1. Mô hình hiểu ngữ cảnh (embedding + attention).
    2. Truyền qua các lớp neural để chấm điểm các từ trong từ điển.
    3. Dùng softmax để biến điểm thành xác suất.
    4. Chọn từ phù hợp nhất làm output tiếp theo.

    🔁 Ví dụ thực tế:

    Nếu bạn nhập: "The monkey ate the"
    • Mô hình có thể trả về "banana" vì xác suất cao nhất là từ đó.
    • Hoặc "apple" nếu bạn dùng temperature sampling để tạo nội dung đa dạng.

    Click image for larger version

Name:	SoftMaxLayer.jpg
Views:	11
Size:	459.9 KB
ID:	429783





    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X