Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Giải thích cách kết nối giữa các GPU

    Kết nối giữa các GPU (Intra-GPU Connectivity)


    Minh họa đơn giản về Cisco UCS C885A và UCS C845A dựa trên kiến trúc NVIDIA HGX và MGX. UCS C885A (bên trái)
    • Mỗi GPU có nhiều cổng NVLink và được kết nối đến 4 NVSwitch không chặn (non-blocking).
    • Mỗi GPU cũng có NIC chuyên dụng để kết nối GPU-to-GPU giữa nhiều máy chủ (cross-node).
    • Ngoài ra còn có các NIC chuyên dụng cho kết nối North-South ra mạng front-end.
    UCS C845A (bên phải)
    • GPU được kết nối bằng NVLink Bridge theo cấu hình:
      • 2-way Bridge
      • 4-way Bridge
    • Mỗi cặp GPU cũng có NIC chuyên dụng để giao tiếp GPU-to-GPU giữa nhiều node.
    • Ngoài ra cũng có NIC chuyên dụng cho kết nối North-South đến mạng front-end.
    Lưu ý: CPU và PCIe Switch không được hiển thị trong hình để đơn giản hóa sơ đồ.

    Giải thích


    Đây là một hình rất hay vì nó cho thấy hai cách thiết kế GPU Server hoàn toàn khác nhau của NVIDIA, và Cisco đang sử dụng cả hai. 1. UCS C885A (NVIDIA HGX) - GPU được kết nối thông qua NVSwitch


    Đây là kiến trúc dành cho AI Training quy mô lớn.

    Thay vì GPU nối trực tiếp với nhau, tất cả 8 GPU đều kết nối đến 4 NVSwitch.

    Có thể hình dung NVSwitch giống như một "Core Switch" trong Data Center.
    GPU1 ─┐
    GPU2 ─┤
    GPU3 ─┤
    GPU4 ─┤
    NVSwitch Fabric
    GPU5 ─┤
    GPU6 ─┤
    GPU7 ─┤
    GPU8 ─┘

    Ưu điểm là:
    • mọi GPU đều có thể trao đổi dữ liệu trực tiếp với bất kỳ GPU nào
    • không tạo nút nghẽn (Non-blocking)
    • độ trễ cực thấp
    • băng thông rất lớn

    Đây chính là kiến trúc được sử dụng trong các hệ thống huấn luyện LLM như Llama, GPT hay DeepSeek.
    2. UCS C845A (NVIDIA MGX) - GPU được kết nối bằng NVLink Bridge


    MGX có kiến trúc đơn giản hơn.

    Không có NVSwitch.

    GPU chỉ được nối với GPU lân cận bằng các cầu nối NVLink.

    Ví dụ:
    GPU1 ==== GPU2

    GPU3 ==== GPU4

    hoặc
    GPU5 ==== GPU6 ==== GPU7 ==== GPU8

    Điều này có nghĩa là:
    • chỉ một nhóm GPU có thể trao đổi dữ liệu với tốc độ NVLink
    • các GPU thuộc nhóm khác phải đi qua PCIe nếu muốn giao tiếp
    • tổng băng thông thấp hơn HGX

    Đổi lại:
    • giá thành thấp hơn
    • tiêu thụ điện ít hơn
    • cấu trúc đơn giản
    • phù hợp với AI Inference.

    3. Tại sao HGX dùng NVSwitch còn MGX chỉ dùng Bridge?


    Mục tiêu thiết kế khác nhau. HGX


    Được tạo ra cho:
    • AI Training
    • Distributed Training
    • LLM nhiều trăm tỷ tham số
    • HPC

    Trong Training, toàn bộ GPU phải đồng bộ gradient liên tục.

    Nếu GPU không thể nói chuyện với nhau đủ nhanh thì GPU sẽ phải chờ nhau, làm giảm hiệu suất.

    Do đó NVIDIA sử dụng NVSwitch để tạo thành một fabric tốc độ cực cao giữa các GPU.
    MGX


    MGX hướng đến:
    • AI Inference
    • Edge AI
    • Enterprise AI
    • GPU Virtualization

    Trong suy luận AI, nhiều tác vụ chỉ cần chạy trên một hoặc vài GPU, nên không cần mọi GPU giao tiếp với tất cả các GPU còn lại.

    Vì vậy, NVLink Bridge là đủ để đạt hiệu quả với chi phí hợp lý.
    4. NIC chuyên dụng để làm gì?


    Trong cả hai kiến trúc đều có hai loại kết nối khác nhau.

    North-South Networking

    Đây là các NIC Ethernet hoặc InfiniBand kết nối server AI với:
    • người dùng
    • storage
    • Data Lake
    • Kubernetes
    • AI Gateway
    • mạng Data Center

    Đây là lưu lượng ra/vào hệ thống AI.

    GPU-to-GPU Across Nodes

    Ngoài giao tiếp trong cùng một máy, AI Training còn cần giao tiếp giữa nhiều máy chủ GPU.

    Ví dụ:
    Server A (8 GPU)

    400G Ethernet / InfiniBand

    Server B (8 GPU)

    Server C (8 GPU)

    Các NIC tốc độ cao này phục vụ cho các tác vụ như AllReduce, NCCL và Distributed Training, giúp đồng bộ dữ liệu giữa hàng chục hoặc hàng trăm GPU.
    Kết luận


    Hình trên thể hiện hai triết lý thiết kế GPU Server của NVIDIA mà Cisco tích hợp trong dòng UCS. UCS C885A sử dụng kiến trúc HGX với NVSwitch, nơi 8 GPU được kết nối thành một fabric không chặn, phù hợp cho huấn luyện các mô hình AI và HPC quy mô lớn nhờ băng thông cao và độ trễ thấp. Trong khi đó, UCS C845A dựa trên kiến trúc MGX với NVLink Bridge, kết nối GPU theo từng nhóm nhỏ, mang lại chi phí và mức tiêu thụ điện năng thấp hơn, rất phù hợp cho các hệ thống AI Inference và triển khai AI trong doanh nghiệp. Cả hai đều sử dụng NIC tốc độ cao cho kết nối North-South và giao tiếp GPU-to-GPU giữa nhiều node, cho phép mở rộng cụm AI từ một máy chủ lên hàng trăm hoặc hàng nghìn GPU khi cần.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X