RDMA Operations – Hiểu đúng để tận dụng sức mạnh trong AI/ML Cluster

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11515
- Share
- Tweet
#1

RDMA Operations – Hiểu đúng để tận dụng sức mạnh trong AI/ML Cluster

24-08-2025, 10:14 AM

Trong hạ tầng AI/ML hiện đại, khối lượng dữ liệu cần trao đổi giữa các GPU là khổng lồ. Nếu chỉ dùng TCP/IP truyền thống, CPU phải tham gia vào quá trình copy dữ liệu qua nhiều lớp (user space → kernel space → network stack), gây độ trễ cao và ngốn tài nguyên CPU.

Đây chính là lý do RDMA (Remote Direct Memory Access) ra đời: cho phép dữ liệu được truyền trực tiếp từ bộ nhớ máy A sang bộ nhớ máy B, bỏ qua CPU của hệ thống đích. Kết quả là độ trễ giảm xuống micro-giây và băng thông đạt gần giới hạn phần cứng (line-rate).
RDMA – Hai phong cách giao tiếp

Khi ứng dụng AI/ML gọi API RDMA, nó có thể sử dụng hai loại verbs (câu lệnh RDMA):
Message Verbs (Channel Semantics)
Gồm: Send và Receive

Thường dùng để gửi các thông điệp điều khiển, tín hiệu ngắn.

Có thể chọn kiểu truyền tin cậy (reliable) hoặc không tin cậy (unreliable).

Hoạt động theo kiểu synchronous (có sự tham gia của cả hai bên).

Memory Verbs (Memory Semantics)
Gồm: RDMA Read, RDMA Write, RDMA Atomic (ví dụ: Fetch & Add, Compare & Swap).

Dùng để truyền tải khối dữ liệu lớn (bulk data).

Luôn là reliable transport – bảo đảm dữ liệu đúng thứ tự, toàn vẹn và không lỗi.

Hoạt động theo kiểu asynchronous – không cần remote host xác nhận từng gói.

Điểm quan trọng: không cần CPU của host đích tham gia. NIC sẽ xử lý trực tiếp.

👉 Chính nhờ đặc tính này mà memory verbs được sử dụng rộng rãi trong AI/ML workloads để truyền dữ liệu tốc độ cao giữa các GPU trong cluster.
Tại sao RDMA Memory Verbs quan trọng cho AI/ML?
Hiệu năng tối đa: RDMA Read/Write giúp GPU truy cập dữ liệu từ xa gần như “chạm thẳng” vào RAM của máy bên kia.

Không tốn CPU: CPU của node đích không phải tham gia vào việc copy dữ liệu, giải phóng tài nguyên cho các tác vụ AI khác.

Scatter-Gather I/O: RDMA hỗ trợ gom dữ liệu từ nhiều vùng nhớ rời rạc (scatter) thành một block hoặc phân tán một block ra nhiều vùng nhớ (gather). Điều này cực kỳ hữu ích khi xử lý các dataset AI lớn và phức tạp.

Khả năng mở rộng: Một hạ tầng RDMA có thể hỗ trợ hàng triệu work queue pairs, giúp cluster AI scale-out hiệu quả.

Câu hỏi kiểm tra kiến thức

Hỏi: Đâu là hai đặc điểm đúng của RDMA Memory Verbs?
A. Supported operations are RDMA reads, RDMA writes, and RDMA atomic.

B. Supported operations are RDMA send and RDMA receive.

C. Supported operations are RDMA fetch and RDMA store.

D. This mode requires the participation of the CPU of the remote host.

E. This mode does not require any confirmation from the remote machine.

F. This mode may require the participation of the CPU of the remote host, depending on the type of RDMA operation.

✅ Đáp án đúng: A và E
A: RDMA memory verbs bao gồm Read, Write, Atomic.

E: Memory verbs không cần xác nhận (ack) từ máy đích – dữ liệu đi thẳng vào bộ nhớ từ xa qua NIC.

Kết luận

Trong AI/ML cluster, message verbs và memory verbs bổ sung cho nhau:
Message verbs để điều khiển, signaling.

Memory verbs để truyền tải khối dữ liệu lớn tốc độ cao.

Nhờ cơ chế này, RDMA giúp hệ thống tận dụng tối đa băng thông hạ tầng InfiniBand hoặc RoCE, giảm độ trễ xuống mức thấp nhất, và cho phép huấn luyện AI/ML ở quy mô hàng nghìn GPU một cách hiệu quả.

💡 Nếu bạn đang quan tâm đến thiết kế hạ tầng AI/ML (GPU cluster, RoCE, InfiniBand, BlueField SmartNICs), thì RDMA chính là công nghệ nền tảng bạn cần nắm vững.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None