Hình ảnh này minh họa bước tiếp theo sau khi tokenization, đó là: Embedding (biểu diễn nhúng) trong một mô hình LLM.
🎯 Tóm tắt quá trình:
Sau khi câu "Introduction to LLM" được chuyển thành các token như:
['Introduction', 'to', 'LLM']
hoặc [13813, 1106, 12427] (dưới dạng số ID), bước tiếp theo là ánh xạ mỗi token sang một vector số thực có kích thước cố định – gọi là embedding vector.
🧠 Giải thích chi tiết:
📌 Từ → Vector:
Mỗi token sẽ được ánh xạ sang một vector nhiều chiều.
Ví dụ:
Các vector này thường có hàng trăm chiều (ví dụ: 768 chiều trong BERT-base).
💡 Về mặt kỹ thuật:
✨ Tóm tắt trực quan theo hình:
Sau đó các vector x₁, x₂, x₃ này sẽ được đưa vào mạng neural (ví dụ, Transformer) để xử lý tiếp.
📘 Vai trò của Embedding:
🎯 Tóm tắt quá trình:
Sau khi câu "Introduction to LLM" được chuyển thành các token như:
['Introduction', 'to', 'LLM']
hoặc [13813, 1106, 12427] (dưới dạng số ID), bước tiếp theo là ánh xạ mỗi token sang một vector số thực có kích thước cố định – gọi là embedding vector.
🧠 Giải thích chi tiết:
📌 Từ → Vector:
Mỗi token sẽ được ánh xạ sang một vector nhiều chiều.
Ví dụ:
- 'Introduction' → [2.13, 4.12, ..., -1.03]
- 'to' → [0.18, 0.56, ..., 0.23]
- 'LLM' → [-1.56, 1.34, ..., 1.28]
Các vector này thường có hàng trăm chiều (ví dụ: 768 chiều trong BERT-base).
Đây là cách để mô hình hiểu “ý nghĩa” của từ, vì các vector embedding lưu giữ thông tin ngữ nghĩa và ngữ cảnh.
💡 Về mặt kỹ thuật:
- Các vector này được train cùng với mô hình, tức là chúng học được trong quá trình huấn luyện.
- Các từ giống nhau về ngữ nghĩa (vd: “king” và “queen”) sẽ có vector gần nhau trong không gian vector.
✨ Tóm tắt trực quan theo hình:
"Introduction" | [2.13, 4.12, ..., -1.03] = x₁ |
"to" | [0.18, 0.56, ..., 0.23] = x₂ |
"LLM" | [-1.56, 1.34, ..., 1.28] = x₃ |
Sau đó các vector x₁, x₂, x₃ này sẽ được đưa vào mạng neural (ví dụ, Transformer) để xử lý tiếp.
📘 Vai trò của Embedding:
- Là bước chuyển ngữ từ thế giới con người (từ ngữ) sang thế giới của mô hình AI (số học).
- Mở ra khả năng tính toán mối quan hệ giữa các từ bằng hình học: đo khoảng cách, góc, phép cộng vector ("king" - "man" + "woman" ≈ "queen").