Trong thế giới AI/ML và HPC (High-Performance Computing), việc truyền dữ liệu giữa các node tính toán càng nhanh và càng ít tiêu tốn CPU càng tốt. Ban đầu, cộng đồng HPC chọn InfiniBand vì nó mang lại băng thông cực cao, độ trễ cực thấp, bypass CPU, và quản lý tắc nghẽn tích hợp. Tuy nhiên, hạn chế lớn của InfiniBand là cần một hạ tầng mạng chuyên dụng, phức tạp và tốn kém.
👉 Giải pháp thay thế: RoCE (RDMA over Converged Ethernet) – cho phép tận dụng Ethernet vốn đã có sẵn trong Data Center để chạy RDMA. Nhờ đó, ta giữ nguyên được lợi ích của RDMA (zero-copy, bypass kernel, throughput cao, latency thấp) nhưng trên nền tảng mạng Ethernet phổ biến.
Thách thức và giải pháp
Nhờ các kỹ thuật này, Ethernet có thể đạt mức độ “lossless” gần như InfiniBand.
RoCEv1 vs RoCEv2
RoCE có hai phiên bản chính:
📌 Trong thực tế, khi nói đến RoCE ngày nay, gần như ngầm hiểu là RoCEv2.
Workflow triển khai RoCE
Để RoCE hoạt động, hạ tầng Ethernet phải được cấu hình chuẩn xác:
Khi hạ tầng đã lossless, quá trình RoCE diễn ra tự động:
Câu hỏi ôn tập
Hai lợi ích chính của RoCEv2 so với RoCEv1 là gì?
✅ Scalability (khả năng mở rộng) – vì có thể chạy trên IP routed network.
✅ Support for routing (hỗ trợ định tuyến) – nhờ encapsulation UDP/IP.
🎯 Kết luận:
RoCEv2 đang trở thành chuẩn mặc định trong Data Center AI/ML. Nó cho phép doanh nghiệp hưởng lợi từ RDMA mà không cần đầu tư hạ tầng InfiniBand đắt đỏ, chỉ cần cấu hình đúng Ethernet fabric hiện có.
👉 Giải pháp thay thế: RoCE (RDMA over Converged Ethernet) – cho phép tận dụng Ethernet vốn đã có sẵn trong Data Center để chạy RDMA. Nhờ đó, ta giữ nguyên được lợi ích của RDMA (zero-copy, bypass kernel, throughput cao, latency thấp) nhưng trên nền tảng mạng Ethernet phổ biến.
Thách thức và giải pháp
- Ethernet truyền thống là lossy (mất gói khi nghẽn), không phù hợp cho workload AI/HPC vốn nhạy cảm với latency và packet loss.
- Giải pháp: tận dụng các cải tiến DCB (Data Center Bridging) như:
- PFC (Priority Flow Control): ngăn mất gói ở lớp Ethernet.
- ECN (Explicit Congestion Notification): cảnh báo tắc nghẽn trước khi gói bị drop.
Nhờ các kỹ thuật này, Ethernet có thể đạt mức độ “lossless” gần như InfiniBand.
RoCEv1 vs RoCEv2
RoCE có hai phiên bản chính:
- RoCEv1 (2010):
- Chạy Layer 2 (Ethernet).
- Yêu cầu fabric lossless bằng PFC/DCB.
- Giới hạn trong một broadcast domain, không routing được.
- Ví dụ: hỗ trợ trên Cisco UCS VIC 1300.
- RoCEv2 (2014):
- Chạy Layer 3 (IP) nhờ encapsulation Ethernet + IP + UDP (port 4791).
- Scalable hơn: có thể routing qua IP fabric.
- Linh hoạt cho thiết kế Data Center hiện đại.
- Ví dụ: hỗ trợ trên Cisco UCS VIC 1400/15000.
- Lưu ý: không backward-compatible với RoCEv1.
📌 Trong thực tế, khi nói đến RoCE ngày nay, gần như ngầm hiểu là RoCEv2.
Workflow triển khai RoCE
Để RoCE hoạt động, hạ tầng Ethernet phải được cấu hình chuẩn xác:
- Cấu hình VLAN riêng cho RoCE traffic.
- QoS: phân loại, ưu tiên gói RDMA.
- DCB trên switch (PFC, ECN).
- NIC & OS: cài driver, thư viện RDMA.
Khi hạ tầng đã lossless, quá trình RoCE diễn ra tự động:
- Đăng ký memory region.
- Thiết lập connection.
- Truyền dữ liệu bypass kernel.
- Hoàn tất và teardown kết nối.
Câu hỏi ôn tập
Hai lợi ích chính của RoCEv2 so với RoCEv1 là gì?
✅ Scalability (khả năng mở rộng) – vì có thể chạy trên IP routed network.
✅ Support for routing (hỗ trợ định tuyến) – nhờ encapsulation UDP/IP.
🎯 Kết luận:
RoCEv2 đang trở thành chuẩn mặc định trong Data Center AI/ML. Nó cho phép doanh nghiệp hưởng lợi từ RDMA mà không cần đầu tư hạ tầng InfiniBand đắt đỏ, chỉ cần cấu hình đúng Ethernet fabric hiện có.