RDMA – Nền tảng tăng tốc hạ tầng AI/ML hiện đại

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 10215
- Share
- Tweet
#1

RDMA – Nền tảng tăng tốc hạ tầng AI/ML hiện đại

23-08-2025, 05:29 PM

Trong thế giới AI/ML, nơi mà các mô hình khổng lồ cần trao đổi lượng dữ liệu hàng chục, thậm chí hàng trăm terabytes giữa các GPU trong cluster, độ trễ chỉ vài micro giây cũng tạo ra sự khác biệt lớn. Đây chính là lúc RDMA (Remote Direct Memory Access) xuất hiện như một “vũ khí bí mật” của hạ tầng. Vấn đề của mô hình truyền thống

Trong mô hình mạng thông thường:
Ứng dụng ở user space phải gọi system call để truyền dữ liệu.

Kernel sẽ xử lý qua TCP/IP stack, driver, rồi đẩy dữ liệu ra NIC (card mạng).

Quá trình này tiêu tốn nhiều chu kỳ CPU, phát sinh context switch, copy dữ liệu giữa user space và kernel space → gây tăng độ trễ và giảm throughput.

Đối với workload AI/ML – nơi GPU cần liên tục chia sẻ dữ liệu huấn luyện – bottleneck này có thể khiến thời gian training kéo dài gấp nhiều lần. RDMA thay đổi cuộc chơi

Với RDMA, luồng dữ liệu bỏ qua kernel, cho phép ứng dụng trao đổi dữ liệu trực tiếp từ bộ nhớ của node này sang bộ nhớ của node khác qua NIC chuyên dụng (RDMA-aware NIC). Cơ chế này gọi là zero-copy:
Không cần CPU copy dữ liệu giữa user và kernel space.

CPU được giải phóng để tập trung cho tác vụ khác.

Throughput tăng mạnh, latency giảm xuống mức micro giây.

Trong các cluster GPU phục vụ AI/ML, RDMA còn hỗ trợ cơ chế GPU Direct RDMA, cho phép GPU của server này truy cập trực tiếp vào bộ nhớ GPU của server khác. Điều này biến cả cluster thành một “siêu máy tính hợp nhất” với khả năng truyền dữ liệu tốc độ cực cao. Lợi ích then chốt của RDMA
Hiệu năng vượt trội: Truyền dữ liệu memory-to-memory với latency thấp và băng thông gần mức lý thuyết của phần cứng.

Giảm tải cho CPU: CPU không còn phải lo gánh nặng xử lý dữ liệu mạng.

Tiết kiệm năng lượng & chi phí: Khi CPU không phải làm việc nặng, điện năng tiêu thụ giảm, kéo theo chi phí vận hành thấp hơn (TCO – Total Cost of Ownership).

Thực tế triển khai
Truyền thống: RDMA dựa trên InfiniBand, một mạng riêng với switch và NIC chuyên dụng.

Hiện nay: Có thể triển khai RDMA over Ethernet (RoCE) và RDMA over IP để tận dụng hạ tầng mạng Ethernet sẵn có, giảm chi phí và mở rộng linh hoạt hơn.

🔑 Tóm gọn: RDMA chính là nền tảng giúp hạ tầng AI/ML đạt low-latency, high-throughput, biến cụm GPU thành một “cỗ máy song song khổng lồ”. Trong thời đại AI, nơi mà từng mili-giây có thể tiết kiệm hàng ngàn USD chi phí cloud, RDMA không còn là “công nghệ chỉ dành cho HPC” mà đã trở thành xương sống cho mọi data center AI hiện đại.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None