Self Attention

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 5334
- Share
- Tweet
#1

Self Attention

1 week ago

Hình ảnh này minh họa khái niệm cốt lõi làm nên sức mạnh của Transformer và các LLM hiện đại: Cơ chế Attention, cụ thể là Self-Attention.
🔍 Vấn đề cần giải quyết:

Trong ngôn ngữ tự nhiên, ý nghĩa của một từ phụ thuộc vào ngữ cảnh.
Ví dụ: Trong câu
“The monkey ate the banana because it was sweet.”
hay
“The monkey ate the banana because it was hungry.”

Từ “it” có thể ám chỉ banana hoặc monkey, tùy vào ngữ cảnh.

🧠 Làm sao mô hình hiểu được điều này? → Self-Attention chính là chìa khóa!
🧠 Giải thích Self-Attention đơn giản:

📦 Bước 1: Embedding mỗi từ → vector

Mỗi từ như "monkey", "it", "banana" sẽ được biểu diễn bằng một vector (từ bước embedding + positional encoding). 🔐 Bước 2: Tạo ra Query (Q), Key (K) và Value (V)

Mỗi từ sẽ được biến đổi thành 3 vector khác nhau:
Q: đại diện cho từ đang xét

K: đại diện cho các từ trong câu (mục tiêu so sánh)

V: mang giá trị thông tin thực tế cần kết hợp

➕ Bước 3: Tính mức độ liên quan giữa các từ

Tính toán dot product giữa Q của từ hiện tại với K của tất cả các từ còn lại để biết mức độ "chú ý" đến từng từ khác.

👉 Kết quả là trọng số attention – thể hiện mức độ liên quan giữa các từ.
💡 Minh họa trong hình:
Từ "it" cần "hiểu" là nó đang nói về "banana" hay "monkey"?

Mô hình dùng Self-Attention để tính xem từ "it" nên chú ý vào từ nào nhiều hơn.
Nếu câu là “...because it was sweet” → nó sẽ chú ý vào “banana”

Nếu câu là “...because it was hungry” → nó sẽ chú ý vào “monkey”

📊 Trong hình, các mũi tên thể hiện hướng chú ý:
"it" chú ý vào "banana" (mũi tên xanh)

"it" chú ý vào "monkey" (mũi tên cam)

🏁 Kết quả:

Mỗi từ sau khi đi qua Self-Attention không còn đứng độc lập nữa — nó mang theo thông tin về các từ liên quan trong cùng câu.
Đây là lý do vì sao Transformer rất mạnh trong việc hiểu ngữ cảnh sâu rộng, không bị giới hạn bởi thứ tự tuần tự như RNN.

🎯 Tóm tắt siêu ngắn:

Query (Q) Từ đang xét

Key (K) Các từ còn lại để so sánh

Value (V) Thông tin của từ sẽ được kết hợp

Attention Trọng số thể hiện mức độ liên quan

Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Query (Q)	Từ đang xét
Key (K)	Các từ còn lại để so sánh
Value (V)	Thông tin của từ sẽ được kết hợp
Attention	Trọng số thể hiện mức độ liên quan

Announcement

Self Attention