Kết nối giữa các GPU (Intra-GPU Connectivity)
Minh họa đơn giản về Cisco UCS C885A và UCS C845A dựa trên kiến trúc NVIDIA HGX và MGX. UCS C885A (bên trái)
Giải thích
Đây là một hình rất hay vì nó cho thấy hai cách thiết kế GPU Server hoàn toàn khác nhau của NVIDIA, và Cisco đang sử dụng cả hai. 1. UCS C885A (NVIDIA HGX) - GPU được kết nối thông qua NVSwitch
Đây là kiến trúc dành cho AI Training quy mô lớn.
Thay vì GPU nối trực tiếp với nhau, tất cả 8 GPU đều kết nối đến 4 NVSwitch.
Có thể hình dung NVSwitch giống như một "Core Switch" trong Data Center.
GPU1 ─┐
GPU2 ─┤
GPU3 ─┤
GPU4 ─┤
NVSwitch Fabric
GPU5 ─┤
GPU6 ─┤
GPU7 ─┤
GPU8 ─┘
Ưu điểm là:
Đây chính là kiến trúc được sử dụng trong các hệ thống huấn luyện LLM như Llama, GPT hay DeepSeek.
2. UCS C845A (NVIDIA MGX) - GPU được kết nối bằng NVLink Bridge
MGX có kiến trúc đơn giản hơn.
Không có NVSwitch.
GPU chỉ được nối với GPU lân cận bằng các cầu nối NVLink.
Ví dụ:
GPU1 ==== GPU2
GPU3 ==== GPU4
hoặc
GPU5 ==== GPU6 ==== GPU7 ==== GPU8
Điều này có nghĩa là:
Đổi lại:
3. Tại sao HGX dùng NVSwitch còn MGX chỉ dùng Bridge?
Mục tiêu thiết kế khác nhau. HGX
Được tạo ra cho:
Trong Training, toàn bộ GPU phải đồng bộ gradient liên tục.
Nếu GPU không thể nói chuyện với nhau đủ nhanh thì GPU sẽ phải chờ nhau, làm giảm hiệu suất.
Do đó NVIDIA sử dụng NVSwitch để tạo thành một fabric tốc độ cực cao giữa các GPU.
MGX
MGX hướng đến:
Trong suy luận AI, nhiều tác vụ chỉ cần chạy trên một hoặc vài GPU, nên không cần mọi GPU giao tiếp với tất cả các GPU còn lại.
Vì vậy, NVLink Bridge là đủ để đạt hiệu quả với chi phí hợp lý.
4. NIC chuyên dụng để làm gì?
Trong cả hai kiến trúc đều có hai loại kết nối khác nhau.
North-South Networking
Đây là các NIC Ethernet hoặc InfiniBand kết nối server AI với:
Đây là lưu lượng ra/vào hệ thống AI.
GPU-to-GPU Across Nodes
Ngoài giao tiếp trong cùng một máy, AI Training còn cần giao tiếp giữa nhiều máy chủ GPU.
Ví dụ:
Server A (8 GPU)
│
400G Ethernet / InfiniBand
│
Server B (8 GPU)
│
Server C (8 GPU)
Các NIC tốc độ cao này phục vụ cho các tác vụ như AllReduce, NCCL và Distributed Training, giúp đồng bộ dữ liệu giữa hàng chục hoặc hàng trăm GPU.
Kết luận
Hình trên thể hiện hai triết lý thiết kế GPU Server của NVIDIA mà Cisco tích hợp trong dòng UCS. UCS C885A sử dụng kiến trúc HGX với NVSwitch, nơi 8 GPU được kết nối thành một fabric không chặn, phù hợp cho huấn luyện các mô hình AI và HPC quy mô lớn nhờ băng thông cao và độ trễ thấp. Trong khi đó, UCS C845A dựa trên kiến trúc MGX với NVLink Bridge, kết nối GPU theo từng nhóm nhỏ, mang lại chi phí và mức tiêu thụ điện năng thấp hơn, rất phù hợp cho các hệ thống AI Inference và triển khai AI trong doanh nghiệp. Cả hai đều sử dụng NIC tốc độ cao cho kết nối North-South và giao tiếp GPU-to-GPU giữa nhiều node, cho phép mở rộng cụm AI từ một máy chủ lên hàng trăm hoặc hàng nghìn GPU khi cần.
Minh họa đơn giản về Cisco UCS C885A và UCS C845A dựa trên kiến trúc NVIDIA HGX và MGX. UCS C885A (bên trái)
- Mỗi GPU có nhiều cổng NVLink và được kết nối đến 4 NVSwitch không chặn (non-blocking).
- Mỗi GPU cũng có NIC chuyên dụng để kết nối GPU-to-GPU giữa nhiều máy chủ (cross-node).
- Ngoài ra còn có các NIC chuyên dụng cho kết nối North-South ra mạng front-end.
- GPU được kết nối bằng NVLink Bridge theo cấu hình:
- 2-way Bridge
- 4-way Bridge
- Mỗi cặp GPU cũng có NIC chuyên dụng để giao tiếp GPU-to-GPU giữa nhiều node.
- Ngoài ra cũng có NIC chuyên dụng cho kết nối North-South đến mạng front-end.
Lưu ý: CPU và PCIe Switch không được hiển thị trong hình để đơn giản hóa sơ đồ.
Giải thích
Đây là một hình rất hay vì nó cho thấy hai cách thiết kế GPU Server hoàn toàn khác nhau của NVIDIA, và Cisco đang sử dụng cả hai. 1. UCS C885A (NVIDIA HGX) - GPU được kết nối thông qua NVSwitch
Đây là kiến trúc dành cho AI Training quy mô lớn.
Thay vì GPU nối trực tiếp với nhau, tất cả 8 GPU đều kết nối đến 4 NVSwitch.
Có thể hình dung NVSwitch giống như một "Core Switch" trong Data Center.
GPU1 ─┐
GPU2 ─┤
GPU3 ─┤
GPU4 ─┤
NVSwitch Fabric
GPU5 ─┤
GPU6 ─┤
GPU7 ─┤
GPU8 ─┘
Ưu điểm là:
- mọi GPU đều có thể trao đổi dữ liệu trực tiếp với bất kỳ GPU nào
- không tạo nút nghẽn (Non-blocking)
- độ trễ cực thấp
- băng thông rất lớn
Đây chính là kiến trúc được sử dụng trong các hệ thống huấn luyện LLM như Llama, GPT hay DeepSeek.
2. UCS C845A (NVIDIA MGX) - GPU được kết nối bằng NVLink Bridge
MGX có kiến trúc đơn giản hơn.
Không có NVSwitch.
GPU chỉ được nối với GPU lân cận bằng các cầu nối NVLink.
Ví dụ:
GPU1 ==== GPU2
GPU3 ==== GPU4
hoặc
GPU5 ==== GPU6 ==== GPU7 ==== GPU8
Điều này có nghĩa là:
- chỉ một nhóm GPU có thể trao đổi dữ liệu với tốc độ NVLink
- các GPU thuộc nhóm khác phải đi qua PCIe nếu muốn giao tiếp
- tổng băng thông thấp hơn HGX
Đổi lại:
- giá thành thấp hơn
- tiêu thụ điện ít hơn
- cấu trúc đơn giản
- phù hợp với AI Inference.
3. Tại sao HGX dùng NVSwitch còn MGX chỉ dùng Bridge?
Mục tiêu thiết kế khác nhau. HGX
Được tạo ra cho:
- AI Training
- Distributed Training
- LLM nhiều trăm tỷ tham số
- HPC
Trong Training, toàn bộ GPU phải đồng bộ gradient liên tục.
Nếu GPU không thể nói chuyện với nhau đủ nhanh thì GPU sẽ phải chờ nhau, làm giảm hiệu suất.
Do đó NVIDIA sử dụng NVSwitch để tạo thành một fabric tốc độ cực cao giữa các GPU.
MGX
MGX hướng đến:
- AI Inference
- Edge AI
- Enterprise AI
- GPU Virtualization
Trong suy luận AI, nhiều tác vụ chỉ cần chạy trên một hoặc vài GPU, nên không cần mọi GPU giao tiếp với tất cả các GPU còn lại.
Vì vậy, NVLink Bridge là đủ để đạt hiệu quả với chi phí hợp lý.
4. NIC chuyên dụng để làm gì?
Trong cả hai kiến trúc đều có hai loại kết nối khác nhau.
North-South Networking
Đây là các NIC Ethernet hoặc InfiniBand kết nối server AI với:
- người dùng
- storage
- Data Lake
- Kubernetes
- AI Gateway
- mạng Data Center
Đây là lưu lượng ra/vào hệ thống AI.
GPU-to-GPU Across Nodes
Ngoài giao tiếp trong cùng một máy, AI Training còn cần giao tiếp giữa nhiều máy chủ GPU.
Ví dụ:
Server A (8 GPU)
│
400G Ethernet / InfiniBand
│
Server B (8 GPU)
│
Server C (8 GPU)
Các NIC tốc độ cao này phục vụ cho các tác vụ như AllReduce, NCCL và Distributed Training, giúp đồng bộ dữ liệu giữa hàng chục hoặc hàng trăm GPU.
Kết luận
Hình trên thể hiện hai triết lý thiết kế GPU Server của NVIDIA mà Cisco tích hợp trong dòng UCS. UCS C885A sử dụng kiến trúc HGX với NVSwitch, nơi 8 GPU được kết nối thành một fabric không chặn, phù hợp cho huấn luyện các mô hình AI và HPC quy mô lớn nhờ băng thông cao và độ trễ thấp. Trong khi đó, UCS C845A dựa trên kiến trúc MGX với NVLink Bridge, kết nối GPU theo từng nhóm nhỏ, mang lại chi phí và mức tiêu thụ điện năng thấp hơn, rất phù hợp cho các hệ thống AI Inference và triển khai AI trong doanh nghiệp. Cả hai đều sử dụng NIC tốc độ cao cho kết nối North-South và giao tiếp GPU-to-GPU giữa nhiều node, cho phép mở rộng cụm AI từ một máy chủ lên hàng trăm hoặc hàng nghìn GPU khi cần.