Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Ba cách triển khai RDMA

    Hình này mô tả ba cách triển khai RDMA (Remote Direct Memory Access) trên hạ tầng mạng hiện đại: RoCE, RoCEv2 và iWARP, đồng thời cho thấy cách chúng ánh xạ giữa thế giới EthernetInfiniBand.

    Điểm quan trọng nhất là ứng dụng AI, HPC hay Storage không làm việc trực tiếp với TCP/IP hay Ethernet. Chúng sử dụng tập lệnh RDMA Verbs của InfiniBand để truy cập bộ nhớ từ xa với độ trễ cực thấp và gần như không cần CPU tham gia.

    iWARP hoạt động trên nền TCP. Nó tận dụng cơ chế đáng tin cậy của TCP như truyền đúng thứ tự, kiểm soát luồng (flow control) và kiểm soát nghẽn (congestion control). Ưu điểm là dễ triển khai trên mạng IP hiện hữu, nhưng chi phí xử lý giao thức thường cao hơn.

    RoCE (RDMA over Converged Ethernet) là RDMA chạy trực tiếp trên Ethernet Layer 2. Phiên bản đầu tiên không hỗ trợ định tuyến IP nên chỉ hoạt động trong cùng miền Layer 2. Vì vậy RoCE thường yêu cầu mạng lossless sử dụng các cơ chế như PFC (Priority Flow Control).

    RoCEv2 là phiên bản được sử dụng phổ biến hiện nay. Thay vì chỉ chạy trên Ethernet Layer 2, nó đóng gói RDMA vào UDP/IP nên có thể định tuyến qua mạng Layer 3. Nhờ đó RoCEv2 phù hợp với các AI Data Center quy mô lớn sử dụng kiến trúc Spine-Leaf. RoCEv2 thường kết hợp với:
    • ECN (Explicit Congestion Notification) để tránh nghẽn.
    • DSCP để phân loại QoS.
    • UDP để hỗ trợ cân bằng tải trên mạng.

    Ở phía phải của hình là InfiniBand, vốn được thiết kế ngay từ đầu cho HPC và AI với cơ chế credit-based flow control giúp tránh mất gói. Trong khi đó Ethernet phải bổ sung các công nghệ như PFC và ECN để đạt được hành vi gần tương tự.

    Nếu nhìn từ góc độ hạ tầng AI hiện nay:
    • InfiniBand vẫn thống trị các siêu máy tính và cụm GPU cực lớn.
    • RoCEv2 đang trở thành lựa chọn phổ biến trong các AI Data Center dựa trên Ethernet.
    • iWARP ít phổ biến hơn trong các triển khai AI quy mô lớn.

    Một cách đơn giản, có thể xem:

    InfiniBand = RDMA nguyên bản

    RoCEv2 = RDMA chạy trên Ethernet/IP

    iWARP = RDMA chạy trên TCP/IP

    Đây cũng là lý do tại sao khi xây dựng mạng cho AI/ML, các kỹ sư mạng ngày nay phải hiểu thêm về PFC, ECN, QoS, Spine-Leaf và RDMA, thay vì chỉ tập trung vào các giao thức Ethernet truyền thống.​
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X