Back End Fabric - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11191
- Share
- Tweet
#1

Back End Fabric

10 hours ago

Đây là một trong những sơ đồ quan trọng nhất khi tìm hiểu về AI Data Center Networking. Nó mô tả cách các máy chủ GPU được kết nối trong Backend AI Fabric theo mô hình Rail-Optimized Network, một kiến trúc đang được NVIDIA, Cisco, Arista, Broadcom và nhiều nhà cung cấp AI Infrastructure sử dụng để tối ưu việc huấn luyện các mô hình AI lớn.
Backend Network trong AI Data Center – Vì sao GPU cần mạng "Rail Design"?

Một trong những khác biệt lớn nhất giữa Data Center truyền thống và AI Data Center nằm ở lưu lượng mạng.

Trong Data Center thông thường, server chủ yếu giao tiếp với client hoặc storage. Nhưng trong AI Cluster, phần lớn lưu lượng lại là GPU trao đổi dữ liệu với GPU (east-west traffic). Khi huấn luyện một mô hình LLM với hàng trăm hoặc hàng nghìn GPU, mỗi GPU chỉ xử lý một phần bài toán và phải liên tục đồng bộ tham số (gradient), chia sẻ dữ liệu và thực hiện các phép tính tập thể (collective operations).

Nếu mạng không đủ nhanh hoặc bị nghẽn, toàn bộ cụm GPU sẽ phải chờ nhau, làm giảm đáng kể hiệu suất huấn luyện.

Rail Design là gì?

Trong hình, mỗi máy chủ được trang bị 8 cổng mạng tốc độ 400 GbE, tương ứng với 8 GPU hoặc 8 kết nối chuyên dụng.

Điểm đặc biệt là các cổng này không được kết nối ngẫu nhiên.
NIC 1 của tất cả các máy chủ đều kết nối vào Leaf-1.

NIC 2 của tất cả các máy chủ đều kết nối vào Leaf-2.

NIC 3 kết nối vào Leaf-3.

Tiếp tục như vậy cho đến NIC 8 kết nối vào Leaf-8.

Mỗi nhóm kết nối như vậy được gọi là một Rail.

Điều này tạo nên các "đường ray" mạng song song, nơi tất cả các GPU có cùng vai trò giao tiếp thông qua cùng một lớp switch Leaf.

GPU giao tiếp trong cùng một Rail

Khung chú thích bên trái của hình cho biết:
"GPUs communicate within the same Rail allowing for local switching."

Điều này có nghĩa là nếu dữ liệu chỉ cần trao đổi giữa các GPU trong cùng Rail, gói tin sẽ được chuyển mạch ngay tại switch Leaf mà không cần đi lên Spine.

Lợi ích là:
Giảm độ trễ.

Giảm số lần chuyển tiếp.

Giảm tải cho Spine Fabric.

Tăng hiệu quả của các thuật toán AllReduce và Broadcast.

Có thể hình dung Rail giống như một làn đường cao tốc riêng dành cho từng nhóm GPU.

Khi cần giao tiếp giữa các Rail

Không phải mọi phép tính đều diễn ra trong một Rail.

Đối với các mô hình AI lớn, dữ liệu thường phải được đồng bộ giữa tất cả GPU trong cụm.

Khi đó, lưu lượng sẽ đi từ Leaf lên Spine rồi sang Leaf khác.

Đó là lý do sơ đồ ghi:
"Crossing domains leverage the spine enabling All-to-All Collective."

Nói cách khác, Spine đóng vai trò kết nối các Rail lại với nhau, giúp mọi GPU trong cụm có thể trao đổi dữ liệu khi cần. Vì sao Spine phải Non-Blocking?

Ngay giữa sơ đồ có dòng chữ Non-Blocking.

Đây là yêu cầu quan trọng của AI Fabric.

Một mạng Non-Blocking có nghĩa là băng thông của Fabric đủ lớn để tất cả các kết nối có thể truyền dữ liệu đồng thời mà không tạo ra điểm nghẽn.

Ví dụ:
32 máy chủ.

Mỗi máy chủ có 8 cổng 400 GbE.

Hàng trăm GPU cùng đồng bộ dữ liệu trong một bước huấn luyện.

Nếu Spine bị quá tải, chỉ một GPU chậm lại cũng có thể khiến cả cụm phải chờ tại các điểm đồng bộ (synchronization barrier), làm giảm hiệu quả của toàn bộ hệ thống. Collective Operations – "Trái tim" của AI Training

Dòng cuối của hình nhấn mạnh:
"Collective operations overlay across the fabric to share or aggregate data."

Collective Operations là các phép toán mà gần như mọi framework AI đều sử dụng, chẳng hạn:
AllReduce

AllGather

ReduceScatter

Broadcast

All-to-All

Các framework như NCCL (NVIDIA), PyTorch Distributed hay TensorFlow Distributed đều dựa vào các phép toán này để đồng bộ mô hình giữa các GPU.

Hiệu năng của Collective Operations phụ thuộc trực tiếp vào chất lượng của mạng Backend. Vai trò của Ethernet 400 GbE

Sơ đồ sử dụng các liên kết 400 GbE, phản ánh xu hướng hiện nay của AI Data Center.

Các thế hệ mới đang chuyển sang:
400 GbE cho các cụm AI phổ biến.

800 GbE cho các AI Factory quy mô lớn.

Chuẩn bị cho 1.6 TbE trong các thế hệ tiếp theo.

Để Ethernet đáp ứng được yêu cầu của AI, mạng thường được kết hợp với các công nghệ như:
RoCEv2 (RDMA over Converged Ethernet).

Priority Flow Control (PFC).

Explicit Congestion Notification (ECN).

Adaptive Routing.

Congestion Control.

Những cơ chế này giúp Ethernet đạt độ trễ thấp và hạn chế mất gói, đáp ứng yêu cầu của các ứng dụng AI phân tán.

Kết luận

Sơ đồ này cho thấy Backend Network trong AI Data Center không còn là mạng Ethernet truyền thống mà đã trở thành một AI Fabric được tối ưu cho giao tiếp giữa GPU với GPU. Thiết kế Rail Design phân chia các kết nối thành nhiều "đường ray" song song, giúp phần lớn lưu lượng được xử lý cục bộ tại các switch Leaf, trong khi hệ thống Spine non-blocking đảm bảo các phép toán tập thể như AllReduce hay All-to-All vẫn diễn ra hiệu quả trên toàn cụm.

Đây cũng là lý do các nhà cung cấp như Cisco, NVIDIA, Arista và Broadcom đều tập trung phát triển các kiến trúc Spine–Leaf Ethernet AI Fabric với RoCEv2, PFC, ECN và băng thông 400G/800G. Khi quy mô AI Cluster tăng lên hàng trăm hoặc hàng nghìn GPU, hiệu năng của mô hình không còn phụ thuộc riêng vào GPU mà còn phụ thuộc rất lớn vào thiết kế của mạng Backend. Một AI Fabric được thiết kế tốt sẽ giúp tận dụng tối đa năng lực tính toán của GPU và rút ngắn đáng kể thời gian huấn luyện các mô hình AI quy mô lớn.
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next