Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.

Announcement

Collapse
No announcement yet.

Embedding

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Embedding

    Hình ảnh này minh họa bước tiếp theo sau khi tokenization, đó là: Embedding (biểu diễn nhúng) trong một mô hình LLM.
    🎯 Tóm tắt quá trình:


    Sau khi câu "Introduction to LLM" được chuyển thành các token như:
    ['Introduction', 'to', 'LLM']
    hoặc [13813, 1106, 12427] (dưới dạng số ID), bước tiếp theo là ánh xạ mỗi token sang một vector số thực có kích thước cố định – gọi là embedding vector.
    🧠 Giải thích chi tiết:

    📌 Từ → Vector:


    Mỗi token sẽ được ánh xạ sang một vector nhiều chiều.
    Ví dụ:
    • 'Introduction' → [2.13, 4.12, ..., -1.03]
    • 'to' → [0.18, 0.56, ..., 0.23]
    • 'LLM' → [-1.56, 1.34, ..., 1.28]

    Các vector này thường có hàng trăm chiều (ví dụ: 768 chiều trong BERT-base).
    Đây là cách để mô hình hiểu “ý nghĩa” của từ, vì các vector embedding lưu giữ thông tin ngữ nghĩa và ngữ cảnh.

    💡 Về mặt kỹ thuật:
    • Các vector này được train cùng với mô hình, tức là chúng học được trong quá trình huấn luyện.
    • Các từ giống nhau về ngữ nghĩa (vd: “king” và “queen”) sẽ có vector gần nhau trong không gian vector.

    ✨ Tóm tắt trực quan theo hình:


    "Introduction" [2.13, 4.12, ..., -1.03] = x₁
    "to" [0.18, 0.56, ..., 0.23] = x₂
    "LLM" [-1.56, 1.34, ..., 1.28] = x₃


    Sau đó các vector x₁, x₂, x₃ này sẽ được đưa vào mạng neural (ví dụ, Transformer) để xử lý tiếp.
    📘 Vai trò của Embedding:
    • Là bước chuyển ngữ từ thế giới con người (từ ngữ) sang thế giới của mô hình AI (số học).
    • Mở ra khả năng tính toán mối quan hệ giữa các từ bằng hình học: đo khoảng cách, góc, phép cộng vector ("king" - "man" + "woman" ≈ "queen").
    Click image for larger version

Name:	Embedding.jpg
Views:	9
Size:	190.4 KB
ID:	429779
    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X