So sánh MultiPath và Load Balancing - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11497
- Share
- Tweet
#1

So sánh MultiPath và Load Balancing

03-06-2026, 08:13 PM

Vì sao ECMP chưa đủ cho Storage Network?

Trong các mạng AI, HPC hoặc Storage hiện đại, chúng ta thường triển khai nhiều đường kết nối song song giữa máy chủ và hệ thống lưu trữ nhằm tăng băng thông và khả năng dự phòng.
Nhiều người cho rằng ECMP sẽ tự động phân phối lưu lượng đều trên tất cả các đường truyền. Tuy nhiên thực tế không hoàn toàn như vậy. Mời các bạn đọc tiếp để hiểu rõ hơn sự khác nhau giữa hai cơ chế này.
ECMP hoạt động dựa trên cơ chế băm (hashing) các thông tin của một flow như Source IP, Destination IP, Protocol, Source Port và Destination Port. Sau khi tính toán, toàn bộ dòng lưu lượng (flow) sẽ được gán vào một đường đi cụ thể. Điều này có nghĩa là:
Một phiên NVMe/TCP có thể sử dụng duy nhất một liên kết 100G.

Một luồng RoCEv2 có thể chỉ chạy trên một đường truyền duy nhất.

Một số liên kết có thể hoạt động gần như tối đa công suất trong khi các liên kết khác lại nhàn rỗi.

Đây là hiện tượng hot spot hoặc uneven utilization (sử dụng tài nguyên không đồng đều). Trong khi đó, Fibre Channel từ lâu đã hỗ trợ cân bằng tải theo từng tác vụ I/O, giúp các hoạt động đọc ghi được phân bố đồng đều hơn trên nhiều đường kết nối.
Để đạt được hiệu quả tương tự trong môi trường IP Storage, các nhà sản xuất khuyến nghị triển khai MPIO (Multipath I/O) trên máy chủ. MPIO cho phép hệ điều hành nhìn thấy nhiều đường truy cập đến cùng một thiết bị lưu trữ và chủ động phân phối các lệnh I/O qua nhiều đường khác nhau. Kết quả của kỹ thuật này là:
Tận dụng tốt hơn tổng băng thông của nhiều liên kết.

Giảm hiện tượng nghẽn cục bộ.

Tăng khả năng chịu lỗi khi một đường truyền gặp sự cố.

Cải thiện hiệu năng tổng thể cho các ứng dụng AI, cơ sở dữ liệu và lưu trữ hiệu năng cao.

Góc nhìn thực tế cho HẠ TẦNG AI Infrastructure

Trong các cụm GPU AI hiện đại sử dụng NVMe/TCP hoặc RoCEv2 trên Ethernet 100G/200G/400G, việc chỉ dựa vào ECMP thường không đủ để khai thác hết năng lực mạng. Do đó, các kiến trúc AI-ready Data Center thường kết hợp:
ECMP trong mạng Spine-Leaf để mở rộng quy mô (scale-out)

MPIO trên máy chủ để phân phối I/O hiệu quả

RDMA/RoCEv2 để giảm độ trễ

Nhiều NIC và nhiều đường truyền vật lý để tăng thông lượng

Tóm lại, ECMP giúp cân bằng các dòng lưu lượng flow mạng, còn MPIO cân bằng các hoạt động lưu trữ. Muốn khai thác tối đa hạ tầng Storage Network cho AI, cần kết hợp cả hai cơ chế này thay vì chỉ dựa vào ECMP.
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None