Rail Topology – Kiến Trúc Fabric “Massively Scalable” Cho AI Backend
Trong các cụm AI Training hiện đại, đặc biệt là những hệ thống sử dụng hàng trăm hoặc hàng nghìn GPU, vấn đề lớn nhất không còn chỉ là “GPU mạnh bao nhiêu”, mà là:
Đây chính là lý do vì sao các kiến trúc như Rail Topology hay Massively Scalable Fabric Topology trở thành nền tảng cốt lõi trong hạ tầng AI hiện đại.
Hai hình minh họa trên mô tả một kiến trúc backend fabric dành cho AI cluster quy mô lớn — nơi mà GPU, DPU/NIC và Fabric Network được thiết kế như một “siêu xa lộ dữ liệu”.
Frontend Network vs Backend Network
Trong AI Infrastructure hiện đại thường tồn tại hai mạng riêng biệt: Frontend Network
Đây là mạng phục vụ:
Có thể xem đây là “mạng quản trị và dịch vụ”.
Thông thường sử dụng:
Backend Network (Scale-Out Fabric)
Đây mới là trái tim của AI cluster.
Backend fabric dùng để:
Mạng này yêu cầu:
Thông thường sử dụng:
Scale-Up vs Scale-Out
Hình minh họa phân biệt rất rõ hai khái niệm cực kỳ quan trọng trong AI Infrastructure.
Scale-Up (Intra-Node)
Đây là giao tiếp bên trong một server.
Ví dụ:
Thông thường tốc độ cực cao:
Đây là lý do tại sao các AI server như:
có giá cực kỳ đắt.
Bởi vì phần khó không phải chỉ là GPU.
Mà là:
Scale-Out (Inter-Node)
Đây là giao tiếp giữa các server AI khác nhau.
Ví dụ:
Lúc này traffic phải đi qua:
Đây chính là phần “Rail Topology”.
Rail Topology Là Gì?
Rail topology là cách tổ chức network fabric theo “đường ray” (rail).
Mỗi GPU hoặc nhóm GPU sẽ được gắn với:
Mục tiêu:
Ý Nghĩa Của Các Mũi Tên Màu Xanh
Hình minh họa cho thấy:
GPU-4 trên Server-2 muốn giao tiếp với GPU-2 trên Server-1.
Có hai khả năng:
Cách 1 – Đi Qua Fabric Network
GPU → NIC/DPU → Backend Fabric → NIC/DPU → GPU
Đây là:
Traffic sẽ đi qua:
Cách 2 – Đi Qua Intra-Node Fabric
Một số kiến trúc cho phép:
Điều này giúp tối ưu:
Vai Trò Của DPU/NIC Trong AI Fabric
Trong hình có các block “DPU NIC”.
Đây là thành phần cực kỳ quan trọng trong AI Datacenter hiện đại.
DPU đóng vai trò:
Các nền tảng phổ biến:
Tại Sao AI Training Cần Fabric Khổng Lồ?
Một mô hình LLM lớn có thể cần:
Trong quá trình training:
GPU phải liên tục trao đổi:
Nếu network chậm:
GPU sẽ phải “ngồi chờ”.
Khi đó:
Một cluster AI trị giá hàng triệu USD có thể bị bottleneck chỉ vì network.
Đây là lý do:
Tại Sao Ethernet Truyền Thống Không Đủ?
Ethernet truyền thống được thiết kế cho:
AI traffic thì khác.
AI traffic yêu cầu:
Vì vậy AI fabric cần:
Rail-Optimized Fabric Là Xu Hướng Của AI Datacenter
Các AI cluster hiện đại đang đi theo hướng:
Đây là nền tảng cho:
Góc Nhìn Thực Chiến
Nhiều người nghĩ AI chỉ là:
Nhưng khi bước vào AI Infrastructure thật sự:
ta sẽ thấy:
Một AI Engineer có thể build model.
Nhưng để vận hành:
thì cần:
Đây chính là nơi:
Trong các cụm AI Training hiện đại, đặc biệt là những hệ thống sử dụng hàng trăm hoặc hàng nghìn GPU, vấn đề lớn nhất không còn chỉ là “GPU mạnh bao nhiêu”, mà là:
GPU giao tiếp với nhau nhanh đến mức nào.
Đây chính là lý do vì sao các kiến trúc như Rail Topology hay Massively Scalable Fabric Topology trở thành nền tảng cốt lõi trong hạ tầng AI hiện đại.
Hai hình minh họa trên mô tả một kiến trúc backend fabric dành cho AI cluster quy mô lớn — nơi mà GPU, DPU/NIC và Fabric Network được thiết kế như một “siêu xa lộ dữ liệu”.
Frontend Network vs Backend Network
Trong AI Infrastructure hiện đại thường tồn tại hai mạng riêng biệt: Frontend Network
Đây là mạng phục vụ:
- SSH
- API
- Kubernetes
- Monitoring
- Storage access
- User traffic
- Management traffic
Có thể xem đây là “mạng quản trị và dịch vụ”.
Thông thường sử dụng:
- Ethernet truyền thống
- Leaf-Spine architecture
- TCP/IP
Backend Network (Scale-Out Fabric)
Đây mới là trái tim của AI cluster.
Backend fabric dùng để:
- GPU-to-GPU communication
- Distributed training
- Gradient synchronization
- Tensor exchange
- NCCL traffic
- RDMA traffic
Mạng này yêu cầu:
- Ultra-low latency
- Near lossless
- High throughput
- Deterministic forwarding
Thông thường sử dụng:
- InfiniBand
- RoCEv2
- NVLink
- NVSwitch
- RDMA Fabric
Scale-Up vs Scale-Out
Hình minh họa phân biệt rất rõ hai khái niệm cực kỳ quan trọng trong AI Infrastructure.
Scale-Up (Intra-Node)
Đây là giao tiếp bên trong một server.
Ví dụ:
- GPU ↔ GPU trong cùng máy
- GPU ↔ DPU/NIC
- NVLink / NVSwitch communication
Thông thường tốc độ cực cao:
- 600GB/s
- 900GB/s
- thậm chí vượt TB/s
Đây là lý do tại sao các AI server như:
- NVIDIA DGX
- HGX
- GB200 NVL72
có giá cực kỳ đắt.
Bởi vì phần khó không phải chỉ là GPU.
Mà là:
làm sao kết nối GPU với nhau với latency cực thấp.
Scale-Out (Inter-Node)
Đây là giao tiếp giữa các server AI khác nhau.
Ví dụ:
- GPU ở Server-1 nói chuyện với GPU ở Server-2
- Distributed LLM Training
- Multi-node AI cluster
Lúc này traffic phải đi qua:
- DPU/NIC
- Spine/Leaf Fabric
- RDMA network
Đây chính là phần “Rail Topology”.
Rail Topology Là Gì?
Rail topology là cách tổ chức network fabric theo “đường ray” (rail).
Mỗi GPU hoặc nhóm GPU sẽ được gắn với:
- một NIC riêng
- một đường fabric riêng
- một traffic lane riêng
Mục tiêu:
- tránh congestion
- predictable latency
- parallel communication
- giảm head-of-line blocking
Ý Nghĩa Của Các Mũi Tên Màu Xanh
Hình minh họa cho thấy:
GPU-4 trên Server-2 muốn giao tiếp với GPU-2 trên Server-1.
Có hai khả năng:
Cách 1 – Đi Qua Fabric Network
GPU → NIC/DPU → Backend Fabric → NIC/DPU → GPU
Đây là:
- inter-node communication
- scale-out communication
Traffic sẽ đi qua:
- Tier-0 switches
- leaf/spine fabric
- RDMA network
Cách 2 – Đi Qua Intra-Node Fabric
Một số kiến trúc cho phép:
- chuyển dữ liệu nội bộ qua NVLink/NVSwitch
- rồi mới gửi ra ngoài fabric
Điều này giúp tối ưu:
- bandwidth
- packet scheduling
- GPU locality
Vai Trò Của DPU/NIC Trong AI Fabric
Trong hình có các block “DPU NIC”.
Đây là thành phần cực kỳ quan trọng trong AI Datacenter hiện đại.
DPU đóng vai trò:
- RDMA offload
- congestion control
- packet steering
- security isolation
- GPU Direct RDMA
- telemetry
Các nền tảng phổ biến:
- NVIDIA BlueField
- Intel IPU
- AMD Pensando
Tại Sao AI Training Cần Fabric Khổng Lồ?
Một mô hình LLM lớn có thể cần:
- hàng trăm GPU
- hàng nghìn GPU
- nhiều AI pod
Trong quá trình training:
GPU phải liên tục trao đổi:
- tensors
- gradients
- optimizer states
Nếu network chậm:
GPU sẽ phải “ngồi chờ”.
Khi đó:
GPU utilization giảm cực mạnh.
Một cluster AI trị giá hàng triệu USD có thể bị bottleneck chỉ vì network.
Đây là lý do:
AI Infrastructure ngày nay thực chất là bài toán networking.
Tại Sao Ethernet Truyền Thống Không Đủ?
Ethernet truyền thống được thiết kế cho:
- web traffic
- enterprise traffic
- burst traffic
AI traffic thì khác.
AI traffic yêu cầu:
- synchronized communication
- collective operations
- all-reduce
- ultra-low jitter
- deterministic latency
Vì vậy AI fabric cần:
- RDMA
- PFC
- ECN
- adaptive routing
- congestion management
- lossless fabric
Rail-Optimized Fabric Là Xu Hướng Của AI Datacenter
Các AI cluster hiện đại đang đi theo hướng:
- multi-rail fabric
- GPU affinity networking
- rail-aware scheduling
- topology-aware orchestration
Đây là nền tảng cho:
- hyperscale AI
- distributed training
- trillion-parameter models
- AI supercomputers
Góc Nhìn Thực Chiến
Nhiều người nghĩ AI chỉ là:
- prompt
- chatbot
- Python
- model
Nhưng khi bước vào AI Infrastructure thật sự:
ta sẽ thấy:
Networking trở thành yếu tố quyết định thành bại của AI cluster.
Một AI Engineer có thể build model.
Nhưng để vận hành:
- 1024 GPU
- distributed training
- low latency fabric
- congestion-free backend
thì cần:
- Data Center Networking
- RDMA
- EVPN/VXLAN
- InfiniBand
- RoCEv2
- Spine-Leaf Fabric
- DPU/IPU
- HPC networking
Đây chính là nơi:
“Networking for AI” trở thành một lĩnh vực hoàn toàn mới.