. Giới thiệu chung về LLM
Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) là những mô hình trí tuệ nhân tạo được huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên. Chúng cho phép máy tính hiểu, sinh, hoặc hoàn thành văn bản một cách thuyết phục.
LLM là côt lõi của nhiều ứng dụng hiện đại như ChatGPT, Bard, Claude, v.v.
2. Tokenization - Phân mã token
Trước khi đưa văn bản vào mô hình, nó cần được chia nhỏ thành các đơn vị gọi là token.
Thư viện HuggingFace cung cấp tokenizer sẵn cho nhiều mô hình.
3. Embedding - Biểu diễn vector
Sau khi token hóa, mỗi token được chuyển thành vector số thực (gọi là embedding vector) mang ngữ nghĩa.
4. Positional Encoding - Mã hóa vị trí
Transformer không xử lý theo thứ tự, vì vậy nó cần biết vị trí của từ trong chuỗi.
5. Attention - Cứ chế tập trung
Cứ chế Self-Attention cho phép mỗi từ trong chuỗi chú ý đến các từ khác để hiểu ngữ cảnh.
Ví dụ: Trong câu "The monkey ate the banana because it was hungry", mô hình dùng attention để biết "it" đang ám chỉ ai.
6. Dự đoán từ tiếp theo
Sau khi xử lý bởi attention và các lớp fully connected:
7. Sự chuyển hệ sinh thái trước và sau LLM
Trước khi có LLM (Pre-LLM):
8. Kết luận
Hiểu được pipeline cơ bản của LLM là bước đầu quan trọng để tham gia vào lĩnh vực AI hiện đại. Các khái niệm như tokenization, embedding, positional encoding, attention, và softmax prediction đóng vai trò nền tảng trong việc thiết kế và sử dụng LLM.
Tài liệu này cung cấp kiến thức tổng quát và trực quan cho người bắt đầu muốn tiếp cận AI thời đại ngôn ngữ lớn.
Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) là những mô hình trí tuệ nhân tạo được huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên. Chúng cho phép máy tính hiểu, sinh, hoặc hoàn thành văn bản một cách thuyết phục.
LLM là côt lõi của nhiều ứng dụng hiện đại như ChatGPT, Bard, Claude, v.v.
2. Tokenization - Phân mã token
Trước khi đưa văn bản vào mô hình, nó cần được chia nhỏ thành các đơn vị gọi là token.
- Token có thể là từ, một phần từ hoặc dấu câu.
- Tokenization giúp chuyển văn bản thành dãy số ID.
- Ví dụ:
- Input: "Introduction to LLM"
- Tokens: ['Introduction', 'to', 'LL', '##M']
- IDs: [13813, 1106, 12427, 2107]
Thư viện HuggingFace cung cấp tokenizer sẵn cho nhiều mô hình.
3. Embedding - Biểu diễn vector
Sau khi token hóa, mỗi token được chuyển thành vector số thực (gọi là embedding vector) mang ngữ nghĩa.
- Vector có kích thước cố định (thường là 768 hoặc 1024).
- Các vector này được huấn luyện để mang ý nghĩa ngữ cảnh.
4. Positional Encoding - Mã hóa vị trí
Transformer không xử lý theo thứ tự, vì vậy nó cần biết vị trí của từ trong chuỗi.
- Positional Encoding là một vector được cộng vào embedding.
- Dùng hàm sin/cos để biểu diễn vị trí tách biệt cho mỗi token.
- Giúp mô hình hiểu từ nào đứng trước/tại vị trí nào.
5. Attention - Cứ chế tập trung
Cứ chế Self-Attention cho phép mỗi từ trong chuỗi chú ý đến các từ khác để hiểu ngữ cảnh.
- Mỗi token được biểu diễn bằng Query (Q), Key (K), Value (V).
- Attention score = dot product giữa Q và K.
- Trọng số attention sau đó được dùng để trộng và kết hợp Value.
Ví dụ: Trong câu "The monkey ate the banana because it was hungry", mô hình dùng attention để biết "it" đang ám chỉ ai.
6. Dự đoán từ tiếp theo
Sau khi xử lý bởi attention và các lớp fully connected:
- Mỗi vector đầu ra được đảy qua một lớp dense để tính toán logits (scores) cho toàn bộ từ vựng.
- Dùng softmax để chuyển scores thành xác suất.
- Mô hình chọn từ tiếp theo theo xác suất cao nhất (greedy) hoặc sampling.
7. Sự chuyển hệ sinh thái trước và sau LLM
Trước khi có LLM (Pre-LLM):
- Developer viết toàn bộ thuật toán bằng code (Python, Go).
- Logic xử lý do con người quy định.
- Mô hình trí tuệ học từ dữ liệu lớn.
- Developer chỉ cần cung cấp dataset, prompt hoặc fine-tune.
- HuggingFace, Jupyter trở thành công cụ chính.
8. Kết luận
Hiểu được pipeline cơ bản của LLM là bước đầu quan trọng để tham gia vào lĩnh vực AI hiện đại. Các khái niệm như tokenization, embedding, positional encoding, attention, và softmax prediction đóng vai trò nền tảng trong việc thiết kế và sử dụng LLM.
Tài liệu này cung cấp kiến thức tổng quát và trực quan cho người bắt đầu muốn tiếp cận AI thời đại ngôn ngữ lớn.