Rail Topology - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11507
- Share
- Tweet
#1

Rail Topology

19-05-2026, 06:58 PM

Rail Topology – Kiến Trúc Fabric “Massively Scalable” Cho AI Backend

Trong các cụm AI Training hiện đại, đặc biệt là những hệ thống sử dụng hàng trăm hoặc hàng nghìn GPU, vấn đề lớn nhất không còn chỉ là “GPU mạnh bao nhiêu”, mà là:
GPU giao tiếp với nhau nhanh đến mức nào.

Đây chính là lý do vì sao các kiến trúc như Rail Topology hay Massively Scalable Fabric Topology trở thành nền tảng cốt lõi trong hạ tầng AI hiện đại.

Hai hình minh họa trên mô tả một kiến trúc backend fabric dành cho AI cluster quy mô lớn — nơi mà GPU, DPU/NIC và Fabric Network được thiết kế như một “siêu xa lộ dữ liệu”.
Frontend Network vs Backend Network

Trong AI Infrastructure hiện đại thường tồn tại hai mạng riêng biệt: Frontend Network

Đây là mạng phục vụ:
SSH

API

Kubernetes

Monitoring

Storage access

User traffic

Management traffic

Có thể xem đây là “mạng quản trị và dịch vụ”.

Thông thường sử dụng:
Ethernet truyền thống

Leaf-Spine architecture

TCP/IP

Backend Network (Scale-Out Fabric)

Đây mới là trái tim của AI cluster.

Backend fabric dùng để:
GPU-to-GPU communication

Distributed training

Gradient synchronization

Tensor exchange

NCCL traffic

RDMA traffic

Mạng này yêu cầu:
Ultra-low latency

Near lossless

High throughput

Deterministic forwarding

Thông thường sử dụng:
InfiniBand

RoCEv2

NVLink

NVSwitch

RDMA Fabric

Scale-Up vs Scale-Out

Hình minh họa phân biệt rất rõ hai khái niệm cực kỳ quan trọng trong AI Infrastructure.
Scale-Up (Intra-Node)

Đây là giao tiếp bên trong một server.

Ví dụ:
GPU ↔ GPU trong cùng máy

GPU ↔ DPU/NIC

NVLink / NVSwitch communication

Thông thường tốc độ cực cao:
600GB/s

900GB/s

thậm chí vượt TB/s

Đây là lý do tại sao các AI server như:
NVIDIA DGX

HGX

GB200 NVL72

có giá cực kỳ đắt.

Bởi vì phần khó không phải chỉ là GPU.

Mà là:
làm sao kết nối GPU với nhau với latency cực thấp.

Scale-Out (Inter-Node)

Đây là giao tiếp giữa các server AI khác nhau.

Ví dụ:
GPU ở Server-1 nói chuyện với GPU ở Server-2

Distributed LLM Training

Multi-node AI cluster

Lúc này traffic phải đi qua:
DPU/NIC

Spine/Leaf Fabric

RDMA network

Đây chính là phần “Rail Topology”.
Rail Topology Là Gì?

Rail topology là cách tổ chức network fabric theo “đường ray” (rail).

Mỗi GPU hoặc nhóm GPU sẽ được gắn với:
một NIC riêng

một đường fabric riêng

một traffic lane riêng

Mục tiêu:
tránh congestion

predictable latency

parallel communication

giảm head-of-line blocking

Ý Nghĩa Của Các Mũi Tên Màu Xanh

Hình minh họa cho thấy:

GPU-4 trên Server-2 muốn giao tiếp với GPU-2 trên Server-1.

Có hai khả năng:
Cách 1 – Đi Qua Fabric Network

GPU → NIC/DPU → Backend Fabric → NIC/DPU → GPU

Đây là:
inter-node communication

scale-out communication

Traffic sẽ đi qua:
Tier-0 switches

leaf/spine fabric

RDMA network

Cách 2 – Đi Qua Intra-Node Fabric

Một số kiến trúc cho phép:
chuyển dữ liệu nội bộ qua NVLink/NVSwitch

rồi mới gửi ra ngoài fabric

Điều này giúp tối ưu:
bandwidth

packet scheduling

GPU locality

Vai Trò Của DPU/NIC Trong AI Fabric

Trong hình có các block “DPU NIC”.

Đây là thành phần cực kỳ quan trọng trong AI Datacenter hiện đại.

DPU đóng vai trò:
RDMA offload

congestion control

packet steering

security isolation

GPU Direct RDMA

telemetry

Các nền tảng phổ biến:
NVIDIA BlueField

Intel IPU

AMD Pensando

Tại Sao AI Training Cần Fabric Khổng Lồ?

Một mô hình LLM lớn có thể cần:
hàng trăm GPU

hàng nghìn GPU

nhiều AI pod

Trong quá trình training:

GPU phải liên tục trao đổi:
tensors

gradients

optimizer states

Nếu network chậm:

GPU sẽ phải “ngồi chờ”.

Khi đó:
GPU utilization giảm cực mạnh.

Một cluster AI trị giá hàng triệu USD có thể bị bottleneck chỉ vì network.

Đây là lý do:
AI Infrastructure ngày nay thực chất là bài toán networking.

Tại Sao Ethernet Truyền Thống Không Đủ?

Ethernet truyền thống được thiết kế cho:
web traffic

enterprise traffic

burst traffic

AI traffic thì khác.

AI traffic yêu cầu:
synchronized communication

collective operations

all-reduce

ultra-low jitter

deterministic latency

Vì vậy AI fabric cần:
RDMA

PFC

ECN

adaptive routing

congestion management

lossless fabric

Rail-Optimized Fabric Là Xu Hướng Của AI Datacenter

Các AI cluster hiện đại đang đi theo hướng:
multi-rail fabric

GPU affinity networking

rail-aware scheduling

topology-aware orchestration

Đây là nền tảng cho:
hyperscale AI

distributed training

trillion-parameter models

AI supercomputers

Góc Nhìn Thực Chiến

Nhiều người nghĩ AI chỉ là:
prompt

chatbot

Python

model

Nhưng khi bước vào AI Infrastructure thật sự:

ta sẽ thấy:
Networking trở thành yếu tố quyết định thành bại của AI cluster.

Một AI Engineer có thể build model.

Nhưng để vận hành:
1024 GPU

distributed training

low latency fabric

congestion-free backend

thì cần:
Data Center Networking

RDMA

EVPN/VXLAN

InfiniBand

RoCEv2

Spine-Leaf Fabric

DPU/IPU

HPC networking

Đây chính là nơi:
“Networking for AI” trở thành một lĩnh vực hoàn toàn mới.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None