Đây là một trong những khái niệm nền tảng nhất của AI hiện đại — nhưng cũng là một trong những khái niệm dễ bị hiểu sai nhất.
Nhiều người nghe “mạng nơ-ron” (Neural Network) và nghĩ nó giống như một bộ não thu nhỏ. Thực ra, đây chỉ là cảm hứng sinh học. Về bản chất, neural network là một hệ thống toán học học các mẫu (patterns) từ dữ liệu. 1. Neural Network bắt đầu từ… toán tuyến tính
Cốt lõi của một neural network là lặp đi lặp lại hai thứ:
Ta có thể xem mỗi neuron đơn giản thực hiện:
y=f(Wx+b)y = f(Wx + b)y=f(Wx+b)
Trong đó:
Đầu tiên, mô hình lấy dữ liệu và chiếu (project) nó vào không gian chiều cao hơn thông qua các phép biến đổi tuyến tính.
Đây chính là ý trong slide:
“Learns through projection of data into higher dimensional spaces.”
Đây là nơi mô hình bắt đầu “tìm ra đặc trưng”.
2. Vì sao phải có Non-linearity?
Nếu chỉ có các phép tuyến tính nối tiếp nhau:
W3(W2(W1x))W_3(W_2(W_1x))W3(W2(W1x))
thì cuối cùng vẫn chỉ là một phép tuyến tính lớn hơn.
Không đủ mạnh.
Hàm kích hoạt phi tuyến giúp neural network học được:
Đây là thứ làm Deep Learning trở nên “deep”.
3. Feedforward — dữ liệu đi qua các lớp
Trong hình, phần trên là Feedforward.
Ví dụ ảnh đầu vào:
Ảnh đi qua:
Mỗi layer trích xuất đặc trưng ở mức cao hơn:
Ví dụ với Computer Vision:
Layer đầu:
Layer sâu hơn:
Layer cuối:
Đó là hierarchical feature learning.
4. Sai thì sửa — Loss Function
Mô hình dự đoán:
Truck ❌
Deer ❌
Bird ✅
Nhưng nhãn đúng (Target):
Airplane
Automobile
Bird ...
So sánh dự đoán với thực tế:
→ tính Loss Function
Ví dụ:
Loss càng lớn → dự đoán càng sai.
5. Backpropagation — bí mật làm AI học được
Đây là phần mũi tên dưới trong hình.
Backpropagation:
Thông qua:
Gradient Descent
W=W−η∇LW = W - \eta \nabla LW=W−η∇L
(\eta là learning rate)
Đây chính là “học”.
Lặp lại:
Feedforward → Loss → Backpropagation → Adjust weights
cho đến khi:
“Repeat Until Error Falls Below Threshold”
như hình minh họa.
6. Neural Network thật ra đang làm gì?
Một cách trực giác:
Nó đang học cách biến đổi dữ liệu nhiều lần cho đến khi dữ liệu trở nên dễ phân loại.
Ví dụ:
Ảnh con mèo trong không gian pixel rất phức tạp.
Qua nhiều lớp biến đổi:
Mô hình chuyển ảnh đó sang một không gian đặc trưng nơi “cat” tách biệt với “dog”.
Đó là representation learning.
7. Deep Learning là “stack” của nhiều neural networks
Khi nhiều lớp hơn:
Ta có:
Thực ra Transformer (GPT, Claude, Gemini...) cũng là neural network.
Chỉ là kiến trúc tiên tiến hơn.
8. Điều thú vị nhất
Nhiều người nghĩ AI học giống con người.
Không hẳn.
Con người học bằng hiểu nghĩa.
Neural Network học bằng:
Nó không “biết” mèo là gì.
Nó tối ưu hàng tỷ tham số để phân biệt mèo.
Khác biệt rất lớn.
Tóm tắt trực giác
Một Neural Network về cơ bản là:
Và đó chính là nền tảng đứng sau:
Tất cả bắt đầu từ:
Wx+bWx+bWx+b
và một ý tưởng cực kỳ đẹp trong toán học.
Nếu nhìn theo góc độ AI hiện đại, Transformer và Attention thực chất là bước tiến tiếp theo của neural network.
Nhiều người nghe “mạng nơ-ron” (Neural Network) và nghĩ nó giống như một bộ não thu nhỏ. Thực ra, đây chỉ là cảm hứng sinh học. Về bản chất, neural network là một hệ thống toán học học các mẫu (patterns) từ dữ liệu. 1. Neural Network bắt đầu từ… toán tuyến tính
Cốt lõi của một neural network là lặp đi lặp lại hai thứ:
- Linear Transformations (Biến đổi tuyến tính)
- Non-linear Activations (Hàm phi tuyến)
Ta có thể xem mỗi neuron đơn giản thực hiện:
y=f(Wx+b)y = f(Wx + b)y=f(Wx+b)
Trong đó:
- x = dữ liệu đầu vào (input)
- W = trọng số (weights)
- b = bias
- f = hàm kích hoạt (ReLU, Sigmoid, GELU...)
Đầu tiên, mô hình lấy dữ liệu và chiếu (project) nó vào không gian chiều cao hơn thông qua các phép biến đổi tuyến tính.
Đây chính là ý trong slide:
“Learns through projection of data into higher dimensional spaces.”
Đây là nơi mô hình bắt đầu “tìm ra đặc trưng”.
2. Vì sao phải có Non-linearity?
Nếu chỉ có các phép tuyến tính nối tiếp nhau:
W3(W2(W1x))W_3(W_2(W_1x))W3(W2(W1x))
thì cuối cùng vẫn chỉ là một phép tuyến tính lớn hơn.
Không đủ mạnh.
Hàm kích hoạt phi tuyến giúp neural network học được:
- biên quyết định phức tạp
- quan hệ phi tuyến
- pattern tinh vi trong dữ liệu
Đây là thứ làm Deep Learning trở nên “deep”.
3. Feedforward — dữ liệu đi qua các lớp
Trong hình, phần trên là Feedforward.
Ví dụ ảnh đầu vào:
- airplane
- cat
- bird
- truck
Ảnh đi qua:
- Input layer
- Hidden layers
- Output layer
Mỗi layer trích xuất đặc trưng ở mức cao hơn:
Ví dụ với Computer Vision:
Layer đầu:
- cạnh (edges)
- góc
- texture
Layer sâu hơn:
- mắt
- bánh xe
- cánh chim
Layer cuối:
- “Đây là Bird”
Đó là hierarchical feature learning.
4. Sai thì sửa — Loss Function
Mô hình dự đoán:
Truck ❌
Deer ❌
Bird ✅
Nhưng nhãn đúng (Target):
Airplane
Automobile
Bird ...
So sánh dự đoán với thực tế:
→ tính Loss Function
Ví dụ:
- Cross Entropy
- Mean Squared Error
Loss càng lớn → dự đoán càng sai.
5. Backpropagation — bí mật làm AI học được
Đây là phần mũi tên dưới trong hình.
Backpropagation:
- tính gradient lỗi
- lan truyền lỗi ngược từ output về các hidden layers
- cập nhật weights và bias
Thông qua:
Gradient Descent
W=W−η∇LW = W - \eta \nabla LW=W−η∇L
(\eta là learning rate)
Đây chính là “học”.
Lặp lại:
Feedforward → Loss → Backpropagation → Adjust weights
cho đến khi:
“Repeat Until Error Falls Below Threshold”
như hình minh họa.
6. Neural Network thật ra đang làm gì?
Một cách trực giác:
Nó đang học cách biến đổi dữ liệu nhiều lần cho đến khi dữ liệu trở nên dễ phân loại.
Ví dụ:
Ảnh con mèo trong không gian pixel rất phức tạp.
Qua nhiều lớp biến đổi:
Mô hình chuyển ảnh đó sang một không gian đặc trưng nơi “cat” tách biệt với “dog”.
Đó là representation learning.
7. Deep Learning là “stack” của nhiều neural networks
Khi nhiều lớp hơn:
- Shallow NN → vài lớp
- Deep NN → hàng chục, hàng trăm lớp
Ta có:
- CNN cho ảnh
- RNN/LSTM cho chuỗi
- Transformer cho LLM
Thực ra Transformer (GPT, Claude, Gemini...) cũng là neural network.
Chỉ là kiến trúc tiên tiến hơn.
8. Điều thú vị nhất
Nhiều người nghĩ AI học giống con người.
Không hẳn.
Con người học bằng hiểu nghĩa.
Neural Network học bằng:
- optimization
- probability
- weight adjustment
Nó không “biết” mèo là gì.
Nó tối ưu hàng tỷ tham số để phân biệt mèo.
Khác biệt rất lớn.
Tóm tắt trực giác
Một Neural Network về cơ bản là:
- Chiếu dữ liệu vào không gian đặc trưng mới
- Dùng phi tuyến để học pattern phức tạp
- Dự đoán đầu ra
- Tính lỗi
- Dùng backprop cập nhật trọng số
- Lặp hàng triệu lần
Và đó chính là nền tảng đứng sau:
- Computer Vision
- Speech Recognition
- ChatGPT
- Agentic AI
- Generative AI
Tất cả bắt đầu từ:
Wx+bWx+bWx+b
và một ý tưởng cực kỳ đẹp trong toán học.
Nếu nhìn theo góc độ AI hiện đại, Transformer và Attention thực chất là bước tiến tiếp theo của neural network.