Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • East West Traffic và North South Traffic

    Trong sơ đồ này, East-West TrafficNorth-South Traffic mô tả hai kiểu luồng dữ liệu hoàn toàn khác nhau trong một cụm AI/ML.


    East-West Traffic là gì?


    East-West Traffic là lưu lượng chạy ngang giữa các GPU server (GPU nodes) với nhau.

    Trong quá trình huấn luyện AI, mỗi server chỉ giữ một phần của mô hình hoặc một phần dữ liệu. Sau mỗi vòng tính toán, các GPU phải liên tục trao đổi tham số, gradient và kết quả trung gian với các GPU khác.

    Ví dụ:
    • GPU Server A tính toán Batch 1
    • GPU Server B tính toán Batch 2
    • GPU Server C tính toán Batch 3

    Sau đó tất cả phải thực hiện:
    • All-Reduce
    • Gradient Synchronization
    • Parameter Exchange

    Lưu lượng này chạy trực tiếp giữa các GPU nodes nên được gọi là East-West.

    Trong hình:
    • Mũi tên cong phía trên
    • Chạy trên Inter-GPU Backend Network
    • Thường sử dụng:
      • RoCEv2
      • RDMA
      • InfiniBand
      • Ultra Ethernet

    Đây là loại traffic:
    • Băng thông lớn nhất
    • Nhạy cảm độ trễ nhất
    • Quan trọng nhất đối với AI Training

    Trong các cụm AI hiện đại, East-West thường chiếm hơn 80–90% tổng lưu lượng mạng.
    North-South Traffic là gì?


    North-South Traffic là lưu lượng đi từ GPU cluster ra bên ngoài hoặc từ bên ngoài đi vào cluster.

    Trong hình, nó bao gồm:
    • Người dùng gửi Prompt vào hệ thống AI
    • Data Scientist gửi dữ liệu huấn luyện
    • GPU truy cập Storage
    • API Client gọi LLM
    • Quản trị viên quản lý hệ thống

    Các luồng này đi qua:
    • Front-end Network
    • Storage Network
    • Management Network

    Ví dụ:

    Khi Training

    Storage → GPU
    • Dataset được đọc từ Data Lake
    • Object Storage
    • NAS
    • SAN

    Khi Inference

    User → API Gateway → GPU

    Prompt được gửi vào GPU để suy luận.

    Đó là North-South Traffic.

    Trong hình:
    • Mũi tên xanh lá và cam
    • Đi từ bên ngoài vào GPU nodes hoặc từ GPU nodes ra ngoài

    So sánh dễ nhớ


    Hãy tưởng tượng một trung tâm dữ liệu AI là một nhà máy.

    North-South Traffic

    Giống như:
    • Xe tải chở nguyên liệu vào nhà máy
    • Xe tải chở thành phẩm ra ngoài

    => Kết nối giữa nhà máy và thế giới bên ngoài.

    East-West Traffic

    Giống như:
    • Các dây chuyền sản xuất bên trong nhà máy trao đổi bán thành phẩm với nhau

    => Kết nối nội bộ giữa các GPU.
    Trong AI Infrastructure, traffic nào quan trọng hơn?


    Đối với AI Training hiện đại:

    East-West Traffic thường là yếu tố quyết định hiệu năng.

    Ví dụ một cụm:
    • 8 GPU/server
    • 256 server
    • 2048 GPU

    Lưu lượng All-Reduce có thể tạo ra hàng chục TB/s trao đổi giữa các GPU.

    Vì vậy các mạng AI hiện đại thường được thiết kế xoay quanh:
    • Lossless Ethernet
    • RoCEv2
    • PFC
    • ECN
    • Clos Fabric
    • Rail-Optimized Topology

    để tối ưu East-West Traffic.

    Ngược lại, North-South Traffic vẫn quan trọng nhưng thường không phải là nút thắt hiệu năng chính trong các hệ thống AI quy mô lớn. Chính vì vậy trong sơ đồ, mạng Inter-GPU Backend Network được tách riêng và được xem là "trái tim" của toàn bộ hạ tầng AI/ML.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X