Để chạy được những workload AI khổng lồ, hạ tầng mạng phải đủ băng thông, tốc độ và hiệu suất. Trong data center AI hiện đại:
🔗 Trước đây back-end chủ yếu dùng InfiniBand, Fibre Channel. Nhưng với RoCE (RDMA over Converged Ethernet), các workload đã hội tụ vào một mạng Ethernet duy nhất — vừa tận dụng hạ tầng Ethernet sẵn có, vừa giữ ưu điểm truyền dữ liệu trực tiếp từ bộ nhớ đến bộ nhớ.
🚀 Vì sao AI/ML phụ thuộc vào mạng?
⚖️ Các lựa chọn cân bằng tải Ethernet
💡 Với Cisco Silicon One, bạn có thể triển khai cả 3 option để chọn đúng giải pháp cho từng kịch bản AI/ML.
❓ Mini Quiz
Đặc điểm chính của Ethernet Lên lịch là gì?
👉 Đáp án đúng: 3. Hiệu suất không chặn ✅
💬 Anh em nghĩ trong thực tế, AI/ML cluster ở Việt Nam nên dùng Ethernet Nâng cao (mở, chi phí hợp lý) hay Ethernet Lên lịch (nonblocking, nhưng độc quyền vendor)?
- Mạng phía trước (Front-end): kết nối ra internet và client.
- Mạng phía sau (Back-end): kết nối GPU, storage, compute node qua spine-leaf switch.
🔗 Trước đây back-end chủ yếu dùng InfiniBand, Fibre Channel. Nhưng với RoCE (RDMA over Converged Ethernet), các workload đã hội tụ vào một mạng Ethernet duy nhất — vừa tận dụng hạ tầng Ethernet sẵn có, vừa giữ ưu điểm truyền dữ liệu trực tiếp từ bộ nhớ đến bộ nhớ.
🚀 Vì sao AI/ML phụ thuộc vào mạng?
- AI/ML jobs được chia nhỏ, chạy song song trên nhiều GPU.
- GPU phải All-to-All trao đổi kết quả → cực kỳ dễ gây tắc nghẽn mạng.
- Khi congestion tăng → tail latency tăng → hiệu năng huấn luyện giảm mạnh.
👉 Nói cách khác: AI/ML workload là network-bound.
⚖️ Các lựa chọn cân bằng tải Ethernet
- Ethernet Tiêu chuẩn: tốt cho single-job, nhưng giảm hiệu năng khi nhiều job chạy cùng lúc.
- Ethernet Nâng cao: cải thiện hiệu năng multi-job, vẫn dựa trên chuẩn mở.
- Ethernet Lên lịch (Scheduled): hiệu suất nonblocking, cực tối ưu cho multi-job lớn nhưng lại vendor-specific.
💡 Với Cisco Silicon One, bạn có thể triển khai cả 3 option để chọn đúng giải pháp cho từng kịch bản AI/ML.
❓ Mini Quiz
Đặc điểm chính của Ethernet Lên lịch là gì?
- Tính tương tác
- Không mất mát (lossless)
- Hiệu suất không chặn (nonblocking performance)
- Tiêu chuẩn mở
👉 Đáp án đúng: 3. Hiệu suất không chặn ✅
💬 Anh em nghĩ trong thực tế, AI/ML cluster ở Việt Nam nên dùng Ethernet Nâng cao (mở, chi phí hợp lý) hay Ethernet Lên lịch (nonblocking, nhưng độc quyền vendor)?