Giải thích cách kết nối giữa các GPU

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11099
- Share
- Tweet
#1

Giải thích cách kết nối giữa các GPU

7 hours ago

Kết nối giữa các GPU (Intra-GPU Connectivity)

Minh họa đơn giản về Cisco UCS C885A và UCS C845A dựa trên kiến trúc NVIDIA HGX và MGX. UCS C885A (bên trái)
Mỗi GPU có nhiều cổng NVLink và được kết nối đến 4 NVSwitch không chặn (non-blocking).

Mỗi GPU cũng có NIC chuyên dụng để kết nối GPU-to-GPU giữa nhiều máy chủ (cross-node).

Ngoài ra còn có các NIC chuyên dụng cho kết nối North-South ra mạng front-end.

UCS C845A (bên phải)
GPU được kết nối bằng NVLink Bridge theo cấu hình:
2-way Bridge

4-way Bridge

Mỗi cặp GPU cũng có NIC chuyên dụng để giao tiếp GPU-to-GPU giữa nhiều node.

Ngoài ra cũng có NIC chuyên dụng cho kết nối North-South đến mạng front-end.

Lưu ý: CPU và PCIe Switch không được hiển thị trong hình để đơn giản hóa sơ đồ.

Giải thích

Đây là một hình rất hay vì nó cho thấy hai cách thiết kế GPU Server hoàn toàn khác nhau của NVIDIA, và Cisco đang sử dụng cả hai. 1. UCS C885A (NVIDIA HGX) - GPU được kết nối thông qua NVSwitch

Đây là kiến trúc dành cho AI Training quy mô lớn.

Thay vì GPU nối trực tiếp với nhau, tất cả 8 GPU đều kết nối đến 4 NVSwitch.

Có thể hình dung NVSwitch giống như một "Core Switch" trong Data Center.
GPU1 ─┐
GPU2 ─┤
GPU3 ─┤
GPU4 ─┤
NVSwitch Fabric
GPU5 ─┤
GPU6 ─┤
GPU7 ─┤
GPU8 ─┘

Ưu điểm là:
mọi GPU đều có thể trao đổi dữ liệu trực tiếp với bất kỳ GPU nào

không tạo nút nghẽn (Non-blocking)

độ trễ cực thấp

băng thông rất lớn

Đây chính là kiến trúc được sử dụng trong các hệ thống huấn luyện LLM như Llama, GPT hay DeepSeek.
2. UCS C845A (NVIDIA MGX) - GPU được kết nối bằng NVLink Bridge

MGX có kiến trúc đơn giản hơn.

Không có NVSwitch.

GPU chỉ được nối với GPU lân cận bằng các cầu nối NVLink.

Ví dụ:
GPU1 ==== GPU2

GPU3 ==== GPU4

hoặc
GPU5 ==== GPU6 ==== GPU7 ==== GPU8

Điều này có nghĩa là:
chỉ một nhóm GPU có thể trao đổi dữ liệu với tốc độ NVLink

các GPU thuộc nhóm khác phải đi qua PCIe nếu muốn giao tiếp

tổng băng thông thấp hơn HGX

Đổi lại:
giá thành thấp hơn

tiêu thụ điện ít hơn

cấu trúc đơn giản

phù hợp với AI Inference.

3. Tại sao HGX dùng NVSwitch còn MGX chỉ dùng Bridge?

Mục tiêu thiết kế khác nhau. HGX

Được tạo ra cho:
AI Training

Distributed Training

LLM nhiều trăm tỷ tham số

HPC

Trong Training, toàn bộ GPU phải đồng bộ gradient liên tục.

Nếu GPU không thể nói chuyện với nhau đủ nhanh thì GPU sẽ phải chờ nhau, làm giảm hiệu suất.

Do đó NVIDIA sử dụng NVSwitch để tạo thành một fabric tốc độ cực cao giữa các GPU.
MGX

MGX hướng đến:
AI Inference

Edge AI

Enterprise AI

GPU Virtualization

Trong suy luận AI, nhiều tác vụ chỉ cần chạy trên một hoặc vài GPU, nên không cần mọi GPU giao tiếp với tất cả các GPU còn lại.

Vì vậy, NVLink Bridge là đủ để đạt hiệu quả với chi phí hợp lý.
4. NIC chuyên dụng để làm gì?

Trong cả hai kiến trúc đều có hai loại kết nối khác nhau.

North-South Networking

Đây là các NIC Ethernet hoặc InfiniBand kết nối server AI với:
người dùng

storage

Data Lake

Kubernetes

AI Gateway

mạng Data Center

Đây là lưu lượng ra/vào hệ thống AI.

GPU-to-GPU Across Nodes

Ngoài giao tiếp trong cùng một máy, AI Training còn cần giao tiếp giữa nhiều máy chủ GPU.

Ví dụ:
Server A (8 GPU)
│
400G Ethernet / InfiniBand
│
Server B (8 GPU)
│
Server C (8 GPU)

Các NIC tốc độ cao này phục vụ cho các tác vụ như AllReduce, NCCL và Distributed Training, giúp đồng bộ dữ liệu giữa hàng chục hoặc hàng trăm GPU.
Kết luận

Hình trên thể hiện hai triết lý thiết kế GPU Server của NVIDIA mà Cisco tích hợp trong dòng UCS. UCS C885A sử dụng kiến trúc HGX với NVSwitch, nơi 8 GPU được kết nối thành một fabric không chặn, phù hợp cho huấn luyện các mô hình AI và HPC quy mô lớn nhờ băng thông cao và độ trễ thấp. Trong khi đó, UCS C845A dựa trên kiến trúc MGX với NVLink Bridge, kết nối GPU theo từng nhóm nhỏ, mang lại chi phí và mức tiêu thụ điện năng thấp hơn, rất phù hợp cho các hệ thống AI Inference và triển khai AI trong doanh nghiệp. Cả hai đều sử dụng NIC tốc độ cao cho kết nối North-South và giao tiếp GPU-to-GPU giữa nhiều node, cho phép mở rộng cụm AI từ một máy chủ lên hàng trăm hoặc hàng nghìn GPU khi cần.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None