Doanh nghiệp đang bước vào giai đoạn chuyển đổi từ InfiniBand sang Ethernet trong hạ tầng AI/ML và HPC. Đây là xu hướng tất yếu vì Ethernet vừa rẻ hơn, vừa dễ quản lý, lại tận dụng được hạ tầng sẵn có. Nhưng để hiểu rõ vì sao sự dịch chuyển này quan trọng, chúng ta cần nhìn cả ưu điểm, hạn chế và so sánh kỹ thuật giữa hai công nghệ.
Vì sao chuyển từ InfiniBand sang Ethernet?
Ưu điểm và hạn chế
So sánh kỹ thuật Ethernet (RoCEv2) vs. InfiniBand
Tương lai: Ultra Ethernet Consortium (UEC)
Các tiêu chuẩn Ethernet mới do UEC thúc đẩy đang hướng tới:
Điều này có nghĩa là trong tương lai, Ethernet không chỉ thay thế mà còn có thể vượt InfiniBand trong hạ tầng AI/ML.
👉 Tóm lại: InfiniBand vẫn là vua trong HPC truyền thống nhờ độ trễ thấp, nhưng Ethernet đang thắng thế nhờ chi phí, hệ sinh thái, khả năng mở rộng, và cải tiến nhanh chóng. Với các workload AI/ML hiện đại, xu hướng dài hạn sẽ là “AI Fabric over Ethernet”, thay vì chỉ dựa vào InfiniBand.
Vì sao chuyển từ InfiniBand sang Ethernet?
- Hiệu quả chi phí – Ethernet phổ biến, sản xuất đại trà, nên giá thành phần cứng thấp hơn nhiều so với InfiniBand.
- Hệ sinh thái rộng – Ethernet được hỗ trợ bởi hầu hết nhà sản xuất, dễ tích hợp vào hạ tầng IT sẵn có.
- Khả năng mở rộng – Ethernet dễ dàng mở rộng qua các topology lớn, tận dụng định tuyến IP chuẩn.
- Dễ quản lý – Nhiều quản trị viên đã quen với công nghệ Ethernet, công cụ giám sát, quản lý cũng phong phú hơn.
Ưu điểm và hạn chế
- Ethernet + RoCE (RDMA over Converged Ethernet):
- Chạy được cả ứng dụng truyền thống (sockets) và ứng dụng RDMA native (verbs).
- Nhưng: Ethernet vốn “lossy” (có thể mất gói), dễ tắc nghẽn, gây hại cho workload nhạy cảm độ trễ như AI/ML.
- Để khắc phục: cần các kỹ thuật như PFC (Priority Flow Control), ECN (Explicit Congestion Notification), và công cụ quản lý như Cisco Nexus Dashboard Fabric Controller.
- InfiniBand:
- Vốn được thiết kế chuyên biệt cho HPC, độ trễ cực thấp, cơ chế tự phục hồi mạng tốt, định tuyến gói thích ứng (adaptive routing).
- Nhưng: hạ tầng đắt, khó mở rộng ra ngoài phạm vi HPC chuyên dụng, ít quản trị viên có kinh nghiệm.
So sánh kỹ thuật Ethernet (RoCEv2) vs. InfiniBand
- Cơ chế điều khiển luồng (Flow control):
- InfiniBand: Credit-based (chặt chẽ, đáng tin cậy).
- Ethernet: Dựa vào PFC + ECN để hạn chế mất gói.
- Chế độ chuyển tiếp (Forwarding):
- InfiniBand: Dựa trên Local ID, đơn giản trong fabric HPC.
- Ethernet: Forwarding theo IP – tận dụng hạ tầng chuẩn.
- Cân bằng tải (Load-balancing):
- InfiniBand: Adaptive routing theo từng gói.
- Ethernet: ECMP – tận dụng các tuyến song song trong mạng IP.
- Khôi phục sự cố (Recovery):
- InfiniBand: Có cơ chế tự healing, giảm downtime.
- Ethernet: Phụ thuộc vào thời gian hội tụ lại của định tuyến (routing reconvergence).
Tương lai: Ultra Ethernet Consortium (UEC)
Các tiêu chuẩn Ethernet mới do UEC thúc đẩy đang hướng tới:
- Giảm độ trễ xuống ngang ngửa InfiniBand.
- Đảm bảo lossless ở quy mô lớn.
- Đơn giản hóa cấu hình PFC, ECN và tối ưu fabric cho AI/ML.
Điều này có nghĩa là trong tương lai, Ethernet không chỉ thay thế mà còn có thể vượt InfiniBand trong hạ tầng AI/ML.
👉 Tóm lại: InfiniBand vẫn là vua trong HPC truyền thống nhờ độ trễ thấp, nhưng Ethernet đang thắng thế nhờ chi phí, hệ sinh thái, khả năng mở rộng, và cải tiến nhanh chóng. Với các workload AI/ML hiện đại, xu hướng dài hạn sẽ là “AI Fabric over Ethernet”, thay vì chỉ dựa vào InfiniBand.