Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.

Announcement

Collapse
No announcement yet.

Self Attention

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Self Attention

    Hình ảnh này minh họa khái niệm cốt lõi làm nên sức mạnh của Transformer và các LLM hiện đại: Cơ chế Attention, cụ thể là Self-Attention.
    🔍 Vấn đề cần giải quyết:


    Trong ngôn ngữ tự nhiên, ý nghĩa của một từ phụ thuộc vào ngữ cảnh.
    Ví dụ: Trong câu
    “The monkey ate the banana because it was sweet.”
    hay
    “The monkey ate the banana because it was hungry.”

    Từ “it” có thể ám chỉ banana hoặc monkey, tùy vào ngữ cảnh.

    🧠 Làm sao mô hình hiểu được điều này? → Self-Attention chính là chìa khóa!
    🧠 Giải thích Self-Attention đơn giản:

    📦 Bước 1: Embedding mỗi từ → vector


    Mỗi từ như "monkey", "it", "banana" sẽ được biểu diễn bằng một vector (từ bước embedding + positional encoding). 🔐 Bước 2: Tạo ra Query (Q), Key (K)Value (V)


    Mỗi từ sẽ được biến đổi thành 3 vector khác nhau:
    • Q: đại diện cho từ đang xét
    • K: đại diện cho các từ trong câu (mục tiêu so sánh)
    • V: mang giá trị thông tin thực tế cần kết hợp
    ➕ Bước 3: Tính mức độ liên quan giữa các từ


    Tính toán dot product giữa Q của từ hiện tại với K của tất cả các từ còn lại để biết mức độ "chú ý" đến từng từ khác.

    👉 Kết quả là trọng số attention – thể hiện mức độ liên quan giữa các từ.
    💡 Minh họa trong hình:
    • Từ "it" cần "hiểu" là nó đang nói về "banana" hay "monkey"?
    • Mô hình dùng Self-Attention để tính xem từ "it" nên chú ý vào từ nào nhiều hơn.
      • Nếu câu là “...because it was sweet” → nó sẽ chú ý vào “banana”
      • Nếu câu là “...because it was hungry” → nó sẽ chú ý vào “monkey”

    📊 Trong hình, các mũi tên thể hiện hướng chú ý:
    • "it" chú ý vào "banana" (mũi tên xanh)
    • "it" chú ý vào "monkey" (mũi tên cam)

    🏁 Kết quả:


    Mỗi từ sau khi đi qua Self-Attention không còn đứng độc lập nữa — nó mang theo thông tin về các từ liên quan trong cùng câu.
    Đây là lý do vì sao Transformer rất mạnh trong việc hiểu ngữ cảnh sâu rộng, không bị giới hạn bởi thứ tự tuần tự như RNN.

    🎯 Tóm tắt siêu ngắn:


    Query (Q) Từ đang xét
    Key (K) Các từ còn lại để so sánh
    Value (V) Thông tin của từ sẽ được kết hợp
    Attention Trọng số thể hiện mức độ liên quan

    Click image for larger version

Name:	SelfAttention.jpg
Views:	11
Size:	356.5 KB
ID:	429781
    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X