Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.

Announcement

Collapse
No announcement yet.

Tóm tắt loạt bài về LLM

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Tóm tắt loạt bài về LLM

    . Giới thiệu chung về LLM


    Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) là những mô hình trí tuệ nhân tạo được huấn luyện trên lượng lớn dữ liệu ngôn ngữ tự nhiên. Chúng cho phép máy tính hiểu, sinh, hoặc hoàn thành văn bản một cách thuyết phục.

    LLM là côt lõi của nhiều ứng dụng hiện đại như ChatGPT, Bard, Claude, v.v.
    2. Tokenization - Phân mã token


    Trước khi đưa văn bản vào mô hình, nó cần được chia nhỏ thành các đơn vị gọi là token.
    • Token có thể là từ, một phần từ hoặc dấu câu.
    • Tokenization giúp chuyển văn bản thành dãy số ID.
    • Ví dụ:
      • Input: "Introduction to LLM"
      • Tokens: ['Introduction', 'to', 'LL', '##M']
      • IDs: [13813, 1106, 12427, 2107]

    Thư viện HuggingFace cung cấp tokenizer sẵn cho nhiều mô hình.
    3. Embedding - Biểu diễn vector


    Sau khi token hóa, mỗi token được chuyển thành vector số thực (gọi là embedding vector) mang ngữ nghĩa.
    • Vector có kích thước cố định (thường là 768 hoặc 1024).
    • Các vector này được huấn luyện để mang ý nghĩa ngữ cảnh.

    4. Positional Encoding - Mã hóa vị trí


    Transformer không xử lý theo thứ tự, vì vậy nó cần biết vị trí của từ trong chuỗi.
    • Positional Encoding là một vector được cộng vào embedding.
    • Dùng hàm sin/cos để biểu diễn vị trí tách biệt cho mỗi token.
    • Giúp mô hình hiểu từ nào đứng trước/tại vị trí nào.

    5. Attention - Cứ chế tập trung


    Cứ chế Self-Attention cho phép mỗi từ trong chuỗi chú ý đến các từ khác để hiểu ngữ cảnh.
    • Mỗi token được biểu diễn bằng Query (Q), Key (K), Value (V).
    • Attention score = dot product giữa Q và K.
    • Trọng số attention sau đó được dùng để trộng và kết hợp Value.

    Ví dụ: Trong câu "The monkey ate the banana because it was hungry", mô hình dùng attention để biết "it" đang ám chỉ ai.
    6. Dự đoán từ tiếp theo


    Sau khi xử lý bởi attention và các lớp fully connected:
    • Mỗi vector đầu ra được đảy qua một lớp dense để tính toán logits (scores) cho toàn bộ từ vựng.
    • Dùng softmax để chuyển scores thành xác suất.
    • Mô hình chọn từ tiếp theo theo xác suất cao nhất (greedy) hoặc sampling.

    7. Sự chuyển hệ sinh thái trước và sau LLM

    Trước khi có LLM (Pre-LLM):
    • Developer viết toàn bộ thuật toán bằng code (Python, Go).
    • Logic xử lý do con người quy định.
    Sau khi có LLM (Post-LLM):
    • Mô hình trí tuệ học từ dữ liệu lớn.
    • Developer chỉ cần cung cấp dataset, prompt hoặc fine-tune.
    • HuggingFace, Jupyter trở thành công cụ chính.

    8. Kết luận


    Hiểu được pipeline cơ bản của LLM là bước đầu quan trọng để tham gia vào lĩnh vực AI hiện đại. Các khái niệm như tokenization, embedding, positional encoding, attention, và softmax prediction đóng vai trò nền tảng trong việc thiết kế và sử dụng LLM.

    Tài liệu này cung cấp kiến thức tổng quát và trực quan cho người bắt đầu muốn tiếp cận AI thời đại ngôn ngữ lớn.


    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X