Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Rail Topology

    Rail Topology – Kiến Trúc Fabric “Massively Scalable” Cho AI Backend


    Trong các cụm AI Training hiện đại, đặc biệt là những hệ thống sử dụng hàng trăm hoặc hàng nghìn GPU, vấn đề lớn nhất không còn chỉ là “GPU mạnh bao nhiêu”, mà là:
    GPU giao tiếp với nhau nhanh đến mức nào.

    Đây chính là lý do vì sao các kiến trúc như Rail Topology hay Massively Scalable Fabric Topology trở thành nền tảng cốt lõi trong hạ tầng AI hiện đại.

    Hai hình minh họa trên mô tả một kiến trúc backend fabric dành cho AI cluster quy mô lớn — nơi mà GPU, DPU/NIC và Fabric Network được thiết kế như một “siêu xa lộ dữ liệu”.
    Frontend Network vs Backend Network


    Trong AI Infrastructure hiện đại thường tồn tại hai mạng riêng biệt: Frontend Network


    Đây là mạng phục vụ:
    • SSH
    • API
    • Kubernetes
    • Monitoring
    • Storage access
    • User traffic
    • Management traffic

    Có thể xem đây là “mạng quản trị và dịch vụ”.

    Thông thường sử dụng:
    • Ethernet truyền thống
    • Leaf-Spine architecture
    • TCP/IP

    Backend Network (Scale-Out Fabric)


    Đây mới là trái tim của AI cluster.

    Backend fabric dùng để:
    • GPU-to-GPU communication
    • Distributed training
    • Gradient synchronization
    • Tensor exchange
    • NCCL traffic
    • RDMA traffic

    Mạng này yêu cầu:
    • Ultra-low latency
    • Near lossless
    • High throughput
    • Deterministic forwarding

    Thông thường sử dụng:
    • InfiniBand
    • RoCEv2
    • NVLink
    • NVSwitch
    • RDMA Fabric

    Scale-Up vs Scale-Out


    Hình minh họa phân biệt rất rõ hai khái niệm cực kỳ quan trọng trong AI Infrastructure.
    Scale-Up (Intra-Node)


    Đây là giao tiếp bên trong một server.

    Ví dụ:
    • GPU ↔ GPU trong cùng máy
    • GPU ↔ DPU/NIC
    • NVLink / NVSwitch communication

    Thông thường tốc độ cực cao:
    • 600GB/s
    • 900GB/s
    • thậm chí vượt TB/s

    Đây là lý do tại sao các AI server như:
    • NVIDIA DGX
    • HGX
    • GB200 NVL72

    có giá cực kỳ đắt.

    Bởi vì phần khó không phải chỉ là GPU.

    Mà là:
    làm sao kết nối GPU với nhau với latency cực thấp.

    Scale-Out (Inter-Node)


    Đây là giao tiếp giữa các server AI khác nhau.

    Ví dụ:
    • GPU ở Server-1 nói chuyện với GPU ở Server-2
    • Distributed LLM Training
    • Multi-node AI cluster

    Lúc này traffic phải đi qua:
    • DPU/NIC
    • Spine/Leaf Fabric
    • RDMA network

    Đây chính là phần “Rail Topology”.
    Rail Topology Là Gì?


    Rail topology là cách tổ chức network fabric theo “đường ray” (rail).

    Mỗi GPU hoặc nhóm GPU sẽ được gắn với:
    • một NIC riêng
    • một đường fabric riêng
    • một traffic lane riêng

    Mục tiêu:
    • tránh congestion
    • predictable latency
    • parallel communication
    • giảm head-of-line blocking

    Ý Nghĩa Của Các Mũi Tên Màu Xanh


    Hình minh họa cho thấy:

    GPU-4 trên Server-2 muốn giao tiếp với GPU-2 trên Server-1.

    Có hai khả năng:
    Cách 1 – Đi Qua Fabric Network


    GPU → NIC/DPU → Backend Fabric → NIC/DPU → GPU

    Đây là:
    • inter-node communication
    • scale-out communication

    Traffic sẽ đi qua:
    • Tier-0 switches
    • leaf/spine fabric
    • RDMA network

    Cách 2 – Đi Qua Intra-Node Fabric


    Một số kiến trúc cho phép:
    • chuyển dữ liệu nội bộ qua NVLink/NVSwitch
    • rồi mới gửi ra ngoài fabric

    Điều này giúp tối ưu:
    • bandwidth
    • packet scheduling
    • GPU locality

    Vai Trò Của DPU/NIC Trong AI Fabric


    Trong hình có các block “DPU NIC”.

    Đây là thành phần cực kỳ quan trọng trong AI Datacenter hiện đại.

    DPU đóng vai trò:
    • RDMA offload
    • congestion control
    • packet steering
    • security isolation
    • GPU Direct RDMA
    • telemetry

    Các nền tảng phổ biến:
    • NVIDIA BlueField
    • Intel IPU
    • AMD Pensando

    Tại Sao AI Training Cần Fabric Khổng Lồ?


    Một mô hình LLM lớn có thể cần:
    • hàng trăm GPU
    • hàng nghìn GPU
    • nhiều AI pod

    Trong quá trình training:

    GPU phải liên tục trao đổi:
    • tensors
    • gradients
    • optimizer states

    Nếu network chậm:

    GPU sẽ phải “ngồi chờ”.

    Khi đó:
    GPU utilization giảm cực mạnh.

    Một cluster AI trị giá hàng triệu USD có thể bị bottleneck chỉ vì network.

    Đây là lý do:
    AI Infrastructure ngày nay thực chất là bài toán networking.

    Tại Sao Ethernet Truyền Thống Không Đủ?


    Ethernet truyền thống được thiết kế cho:
    • web traffic
    • enterprise traffic
    • burst traffic

    AI traffic thì khác.

    AI traffic yêu cầu:
    • synchronized communication
    • collective operations
    • all-reduce
    • ultra-low jitter
    • deterministic latency

    Vì vậy AI fabric cần:
    • RDMA
    • PFC
    • ECN
    • adaptive routing
    • congestion management
    • lossless fabric

    Rail-Optimized Fabric Là Xu Hướng Của AI Datacenter


    Các AI cluster hiện đại đang đi theo hướng:
    • multi-rail fabric
    • GPU affinity networking
    • rail-aware scheduling
    • topology-aware orchestration

    Đây là nền tảng cho:
    • hyperscale AI
    • distributed training
    • trillion-parameter models
    • AI supercomputers

    Góc Nhìn Thực Chiến


    Nhiều người nghĩ AI chỉ là:
    • prompt
    • chatbot
    • Python
    • model

    Nhưng khi bước vào AI Infrastructure thật sự:

    ta sẽ thấy:
    Networking trở thành yếu tố quyết định thành bại của AI cluster.

    Một AI Engineer có thể build model.

    Nhưng để vận hành:
    • 1024 GPU
    • distributed training
    • low latency fabric
    • congestion-free backend

    thì cần:
    • Data Center Networking
    • RDMA
    • EVPN/VXLAN
    • InfiniBand
    • RoCEv2
    • Spine-Leaf Fabric
    • DPU/IPU
    • HPC networking

    Đây chính là nơi:
    “Networking for AI” trở thành một lĩnh vực hoàn toàn mới.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X