Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • ⚡ Kết nối Ethernet trong hạ tầng AI/ML

    Để chạy được những workload AI khổng lồ, hạ tầng mạng phải đủ băng thông, tốc độ và hiệu suất. Trong data center AI hiện đại:
    • Mạng phía trước (Front-end): kết nối ra internet và client.
    • Mạng phía sau (Back-end): kết nối GPU, storage, compute node qua spine-leaf switch.

    🔗 Trước đây back-end chủ yếu dùng InfiniBand, Fibre Channel. Nhưng với RoCE (RDMA over Converged Ethernet), các workload đã hội tụ vào một mạng Ethernet duy nhất — vừa tận dụng hạ tầng Ethernet sẵn có, vừa giữ ưu điểm truyền dữ liệu trực tiếp từ bộ nhớ đến bộ nhớ.
    🚀 Vì sao AI/ML phụ thuộc vào mạng?
    • AI/ML jobs được chia nhỏ, chạy song song trên nhiều GPU.
    • GPU phải All-to-All trao đổi kết quả → cực kỳ dễ gây tắc nghẽn mạng.
    • Khi congestion tăng → tail latency tăng → hiệu năng huấn luyện giảm mạnh.
      👉 Nói cách khác: AI/ML workload là network-bound.

    ⚖️ Các lựa chọn cân bằng tải Ethernet
    1. Ethernet Tiêu chuẩn: tốt cho single-job, nhưng giảm hiệu năng khi nhiều job chạy cùng lúc.
    2. Ethernet Nâng cao: cải thiện hiệu năng multi-job, vẫn dựa trên chuẩn mở.
    3. Ethernet Lên lịch (Scheduled): hiệu suất nonblocking, cực tối ưu cho multi-job lớn nhưng lại vendor-specific.

    💡 Với Cisco Silicon One, bạn có thể triển khai cả 3 option để chọn đúng giải pháp cho từng kịch bản AI/ML.
    ❓ Mini Quiz


    Đặc điểm chính của Ethernet Lên lịch là gì?
    1. Tính tương tác
    2. Không mất mát (lossless)
    3. Hiệu suất không chặn (nonblocking performance)
    4. Tiêu chuẩn mở

    👉 Đáp án đúng: 3. Hiệu suất không chặn

    💬 Anh em nghĩ trong thực tế, AI/ML cluster ở Việt Nam nên dùng Ethernet Nâng cao (mở, chi phí hợp lý) hay Ethernet Lên lịch (nonblocking, nhưng độc quyền vendor)?
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X