Trong sơ đồ này, East-West Traffic và North-South Traffic mô tả hai kiểu luồng dữ liệu hoàn toàn khác nhau trong một cụm AI/ML.
East-West Traffic là gì?
East-West Traffic là lưu lượng chạy ngang giữa các GPU server (GPU nodes) với nhau.
Trong quá trình huấn luyện AI, mỗi server chỉ giữ một phần của mô hình hoặc một phần dữ liệu. Sau mỗi vòng tính toán, các GPU phải liên tục trao đổi tham số, gradient và kết quả trung gian với các GPU khác.
Ví dụ:
Sau đó tất cả phải thực hiện:
Lưu lượng này chạy trực tiếp giữa các GPU nodes nên được gọi là East-West.
Trong hình:
Đây là loại traffic:
Trong các cụm AI hiện đại, East-West thường chiếm hơn 80–90% tổng lưu lượng mạng.
North-South Traffic là gì?
North-South Traffic là lưu lượng đi từ GPU cluster ra bên ngoài hoặc từ bên ngoài đi vào cluster.
Trong hình, nó bao gồm:
Các luồng này đi qua:
Ví dụ:
Khi Training
Storage → GPU
Khi Inference
User → API Gateway → GPU
Prompt được gửi vào GPU để suy luận.
Đó là North-South Traffic.
Trong hình:
So sánh dễ nhớ
Hãy tưởng tượng một trung tâm dữ liệu AI là một nhà máy.
North-South Traffic
Giống như:
=> Kết nối giữa nhà máy và thế giới bên ngoài.
East-West Traffic
Giống như:
=> Kết nối nội bộ giữa các GPU.
Trong AI Infrastructure, traffic nào quan trọng hơn?
Đối với AI Training hiện đại:
East-West Traffic thường là yếu tố quyết định hiệu năng.
Ví dụ một cụm:
Lưu lượng All-Reduce có thể tạo ra hàng chục TB/s trao đổi giữa các GPU.
Vì vậy các mạng AI hiện đại thường được thiết kế xoay quanh:
để tối ưu East-West Traffic.
Ngược lại, North-South Traffic vẫn quan trọng nhưng thường không phải là nút thắt hiệu năng chính trong các hệ thống AI quy mô lớn. Chính vì vậy trong sơ đồ, mạng Inter-GPU Backend Network được tách riêng và được xem là "trái tim" của toàn bộ hạ tầng AI/ML.
East-West Traffic là gì?
East-West Traffic là lưu lượng chạy ngang giữa các GPU server (GPU nodes) với nhau.
Trong quá trình huấn luyện AI, mỗi server chỉ giữ một phần của mô hình hoặc một phần dữ liệu. Sau mỗi vòng tính toán, các GPU phải liên tục trao đổi tham số, gradient và kết quả trung gian với các GPU khác.
Ví dụ:
- GPU Server A tính toán Batch 1
- GPU Server B tính toán Batch 2
- GPU Server C tính toán Batch 3
Sau đó tất cả phải thực hiện:
- All-Reduce
- Gradient Synchronization
- Parameter Exchange
Lưu lượng này chạy trực tiếp giữa các GPU nodes nên được gọi là East-West.
Trong hình:
- Mũi tên cong phía trên
- Chạy trên Inter-GPU Backend Network
- Thường sử dụng:
- RoCEv2
- RDMA
- InfiniBand
- Ultra Ethernet
Đây là loại traffic:
- Băng thông lớn nhất
- Nhạy cảm độ trễ nhất
- Quan trọng nhất đối với AI Training
Trong các cụm AI hiện đại, East-West thường chiếm hơn 80–90% tổng lưu lượng mạng.
North-South Traffic là gì?
North-South Traffic là lưu lượng đi từ GPU cluster ra bên ngoài hoặc từ bên ngoài đi vào cluster.
Trong hình, nó bao gồm:
- Người dùng gửi Prompt vào hệ thống AI
- Data Scientist gửi dữ liệu huấn luyện
- GPU truy cập Storage
- API Client gọi LLM
- Quản trị viên quản lý hệ thống
Các luồng này đi qua:
- Front-end Network
- Storage Network
- Management Network
Ví dụ:
Khi Training
Storage → GPU
- Dataset được đọc từ Data Lake
- Object Storage
- NAS
- SAN
Khi Inference
User → API Gateway → GPU
Prompt được gửi vào GPU để suy luận.
Đó là North-South Traffic.
Trong hình:
- Mũi tên xanh lá và cam
- Đi từ bên ngoài vào GPU nodes hoặc từ GPU nodes ra ngoài
So sánh dễ nhớ
Hãy tưởng tượng một trung tâm dữ liệu AI là một nhà máy.
North-South Traffic
Giống như:
- Xe tải chở nguyên liệu vào nhà máy
- Xe tải chở thành phẩm ra ngoài
=> Kết nối giữa nhà máy và thế giới bên ngoài.
East-West Traffic
Giống như:
- Các dây chuyền sản xuất bên trong nhà máy trao đổi bán thành phẩm với nhau
=> Kết nối nội bộ giữa các GPU.
Trong AI Infrastructure, traffic nào quan trọng hơn?
Đối với AI Training hiện đại:
East-West Traffic thường là yếu tố quyết định hiệu năng.
Ví dụ một cụm:
- 8 GPU/server
- 256 server
- 2048 GPU
Lưu lượng All-Reduce có thể tạo ra hàng chục TB/s trao đổi giữa các GPU.
Vì vậy các mạng AI hiện đại thường được thiết kế xoay quanh:
- Lossless Ethernet
- RoCEv2
- PFC
- ECN
- Clos Fabric
- Rail-Optimized Topology
để tối ưu East-West Traffic.
Ngược lại, North-South Traffic vẫn quan trọng nhưng thường không phải là nút thắt hiệu năng chính trong các hệ thống AI quy mô lớn. Chính vì vậy trong sơ đồ, mạng Inter-GPU Backend Network được tách riêng và được xem là "trái tim" của toàn bộ hạ tầng AI/ML.