⚡ Kết nối Ethernet trong hạ tầng AI/ML

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11507
- Share
- Tweet
#1

⚡ Kết nối Ethernet trong hạ tầng AI/ML

20-08-2025, 05:46 PM

Để chạy được những workload AI khổng lồ, hạ tầng mạng phải đủ băng thông, tốc độ và hiệu suất. Trong data center AI hiện đại:
Mạng phía trước (Front-end): kết nối ra internet và client.

Mạng phía sau (Back-end): kết nối GPU, storage, compute node qua spine-leaf switch.

🔗 Trước đây back-end chủ yếu dùng InfiniBand, Fibre Channel. Nhưng với RoCE (RDMA over Converged Ethernet), các workload đã hội tụ vào một mạng Ethernet duy nhất — vừa tận dụng hạ tầng Ethernet sẵn có, vừa giữ ưu điểm truyền dữ liệu trực tiếp từ bộ nhớ đến bộ nhớ.
🚀 Vì sao AI/ML phụ thuộc vào mạng?
AI/ML jobs được chia nhỏ, chạy song song trên nhiều GPU.

GPU phải All-to-All trao đổi kết quả → cực kỳ dễ gây tắc nghẽn mạng.

Khi congestion tăng → tail latency tăng → hiệu năng huấn luyện giảm mạnh.
👉 Nói cách khác: AI/ML workload là network-bound.

⚖️ Các lựa chọn cân bằng tải Ethernet
Ethernet Tiêu chuẩn: tốt cho single-job, nhưng giảm hiệu năng khi nhiều job chạy cùng lúc.

Ethernet Nâng cao: cải thiện hiệu năng multi-job, vẫn dựa trên chuẩn mở.

Ethernet Lên lịch (Scheduled): hiệu suất nonblocking, cực tối ưu cho multi-job lớn nhưng lại vendor-specific.

💡 Với Cisco Silicon One, bạn có thể triển khai cả 3 option để chọn đúng giải pháp cho từng kịch bản AI/ML.
❓ Mini Quiz

Đặc điểm chính của Ethernet Lên lịch là gì?
Tính tương tác

Không mất mát (lossless)

Hiệu suất không chặn (nonblocking performance)

Tiêu chuẩn mở

👉 Đáp án đúng: 3. Hiệu suất không chặn ✅

💬 Anh em nghĩ trong thực tế, AI/ML cluster ở Việt Nam nên dùng Ethernet Nâng cao (mở, chi phí hợp lý) hay Ethernet Lên lịch (nonblocking, nhưng độc quyền vendor)?

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None