Vì sao ECMP chưa đủ cho Storage Network?
Trong các mạng AI, HPC hoặc Storage hiện đại, chúng ta thường triển khai nhiều đường kết nối song song giữa máy chủ và hệ thống lưu trữ nhằm tăng băng thông và khả năng dự phòng.
Nhiều người cho rằng ECMP sẽ tự động phân phối lưu lượng đều trên tất cả các đường truyền. Tuy nhiên thực tế không hoàn toàn như vậy. Mời các bạn đọc tiếp để hiểu rõ hơn sự khác nhau giữa hai cơ chế này.
ECMP hoạt động dựa trên cơ chế băm (hashing) các thông tin của một flow như Source IP, Destination IP, Protocol, Source Port và Destination Port. Sau khi tính toán, toàn bộ dòng lưu lượng (flow) sẽ được gán vào một đường đi cụ thể. Điều này có nghĩa là:
Để đạt được hiệu quả tương tự trong môi trường IP Storage, các nhà sản xuất khuyến nghị triển khai MPIO (Multipath I/O) trên máy chủ. MPIO cho phép hệ điều hành nhìn thấy nhiều đường truy cập đến cùng một thiết bị lưu trữ và chủ động phân phối các lệnh I/O qua nhiều đường khác nhau. Kết quả của kỹ thuật này là:
Trong các cụm GPU AI hiện đại sử dụng NVMe/TCP hoặc RoCEv2 trên Ethernet 100G/200G/400G, việc chỉ dựa vào ECMP thường không đủ để khai thác hết năng lực mạng. Do đó, các kiến trúc AI-ready Data Center thường kết hợp:
Trong các mạng AI, HPC hoặc Storage hiện đại, chúng ta thường triển khai nhiều đường kết nối song song giữa máy chủ và hệ thống lưu trữ nhằm tăng băng thông và khả năng dự phòng.
Nhiều người cho rằng ECMP sẽ tự động phân phối lưu lượng đều trên tất cả các đường truyền. Tuy nhiên thực tế không hoàn toàn như vậy. Mời các bạn đọc tiếp để hiểu rõ hơn sự khác nhau giữa hai cơ chế này.
ECMP hoạt động dựa trên cơ chế băm (hashing) các thông tin của một flow như Source IP, Destination IP, Protocol, Source Port và Destination Port. Sau khi tính toán, toàn bộ dòng lưu lượng (flow) sẽ được gán vào một đường đi cụ thể. Điều này có nghĩa là:
- Một phiên NVMe/TCP có thể sử dụng duy nhất một liên kết 100G.
- Một luồng RoCEv2 có thể chỉ chạy trên một đường truyền duy nhất.
- Một số liên kết có thể hoạt động gần như tối đa công suất trong khi các liên kết khác lại nhàn rỗi.
Để đạt được hiệu quả tương tự trong môi trường IP Storage, các nhà sản xuất khuyến nghị triển khai MPIO (Multipath I/O) trên máy chủ. MPIO cho phép hệ điều hành nhìn thấy nhiều đường truy cập đến cùng một thiết bị lưu trữ và chủ động phân phối các lệnh I/O qua nhiều đường khác nhau. Kết quả của kỹ thuật này là:
- Tận dụng tốt hơn tổng băng thông của nhiều liên kết.
- Giảm hiện tượng nghẽn cục bộ.
- Tăng khả năng chịu lỗi khi một đường truyền gặp sự cố.
- Cải thiện hiệu năng tổng thể cho các ứng dụng AI, cơ sở dữ liệu và lưu trữ hiệu năng cao.
Trong các cụm GPU AI hiện đại sử dụng NVMe/TCP hoặc RoCEv2 trên Ethernet 100G/200G/400G, việc chỉ dựa vào ECMP thường không đủ để khai thác hết năng lực mạng. Do đó, các kiến trúc AI-ready Data Center thường kết hợp:
- ECMP trong mạng Spine-Leaf để mở rộng quy mô (scale-out)
- MPIO trên máy chủ để phân phối I/O hiệu quả
- RDMA/RoCEv2 để giảm độ trễ
- Nhiều NIC và nhiều đường truyền vật lý để tăng thông lượng