Tóm tắt loạt bài về LLM

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 5341
- Share
- Tweet
#1

Tóm tắt loạt bài về LLM

1 week ago

. Giới thiệu chung về LLM

Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) là những mô hình trí tuệ nhân tạo được huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên. Chúng cho phép máy tính hiểu, sinh, hoặc hoàn thành văn bản một cách thuyết phục.

LLM là côt lõi của nhiều ứng dụng hiện đại như ChatGPT, Bard, Claude, v.v.
2. Tokenization - Phân mã token

Trước khi đưa văn bản vào mô hình, nó cần được chia nhỏ thành các đơn vị gọi là token.
Token có thể là từ, một phần từ hoặc dấu câu.

Tokenization giúp chuyển văn bản thành dãy số ID.

Ví dụ:
Input: "Introduction to LLM"

Tokens: ['Introduction', 'to', 'LL', '##M']

IDs: [13813, 1106, 12427, 2107]

Thư viện HuggingFace cung cấp tokenizer sẵn cho nhiều mô hình.
3. Embedding - Biểu diễn vector

Sau khi token hóa, mỗi token được chuyển thành vector số thực (gọi là embedding vector) mang ngữ nghĩa.
Vector có kích thước cố định (thường là 768 hoặc 1024).

Các vector này được huấn luyện để mang ý nghĩa ngữ cảnh.

4. Positional Encoding - Mã hóa vị trí

Transformer không xử lý theo thứ tự, vì vậy nó cần biết vị trí của từ trong chuỗi.
Positional Encoding là một vector được cộng vào embedding.

Dùng hàm sin/cos để biểu diễn vị trí tách biệt cho mỗi token.

Giúp mô hình hiểu từ nào đứng trước/tại vị trí nào.

5. Attention - Cứ chế tập trung

Cứ chế Self-Attention cho phép mỗi từ trong chuỗi chú ý đến các từ khác để hiểu ngữ cảnh.
Mỗi token được biểu diễn bằng Query (Q), Key (K), Value (V).

Attention score = dot product giữa Q và K.

Trọng số attention sau đó được dùng để trộng và kết hợp Value.

Ví dụ: Trong câu "The monkey ate the banana because it was hungry", mô hình dùng attention để biết "it" đang ám chỉ ai.
6. Dự đoán từ tiếp theo

Sau khi xử lý bởi attention và các lớp fully connected:
Mỗi vector đầu ra được đảy qua một lớp dense để tính toán logits (scores) cho toàn bộ từ vựng.

Dùng softmax để chuyển scores thành xác suất.

Mô hình chọn từ tiếp theo theo xác suất cao nhất (greedy) hoặc sampling.

7. Sự chuyển hệ sinh thái trước và sau LLM

Trước khi có LLM (Pre-LLM):
Developer viết toàn bộ thuật toán bằng code (Python, Go).

Logic xử lý do con người quy định.

Sau khi có LLM (Post-LLM):
Mô hình trí tuệ học từ dữ liệu lớn.

Developer chỉ cần cung cấp dataset, prompt hoặc fine-tune.

HuggingFace, Jupyter trở thành công cụ chính.

8. Kết luận

Hiểu được pipeline cơ bản của LLM là bước đầu quan trọng để tham gia vào lĩnh vực AI hiện đại. Các khái niệm như tokenization, embedding, positional encoding, attention, và softmax prediction đóng vai trò nền tảng trong việc thiết kế và sử dụng LLM.

Tài liệu này cung cấp kiến thức tổng quát và trực quan cho người bắt đầu muốn tiếp cận AI thời đại ngôn ngữ lớn.

Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Announcement

Tóm tắt loạt bài về LLM