Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Mạng NonBlocking là gì?

    🎯 MẠNG NON-BLOCKING LÀ GÌ?

    "Mạng non-blocking" có nghĩa là không bị tắc nghẽn: mọi luồng giao tiếp đều có đủ băng thông mà không bị giới hạn bởi băng thông tổng. Điều này cực kỳ quan trọng trong huấn luyện AI khi các GPU cần trao đổi dữ liệu lớn với tốc độ cực cao.

    🧠 TỔNG QUAN KIẾN TRÚC:

    Mạng chia làm 2 phần chính:
    🔵 1. Front End (Mạng phía trước):
    • Kết nối host (máy chủ) ra thế giới bên ngoài.
    • Dùng để quản lý máy chủ (management network).
    • Có thể dùng cho lưu trữ (Storage, tuỳ chọn).
    • Biểu diễn bằng các đường màu xanh dương trong sơ đồ.

    🧑‍💼 Ví dụ: các kết nối Ethernet để quản trị từ xa hoặc truyền dữ liệu đến hệ thống lưu trữ như NAS/SAN.
    🟢 2. Back End (Mạng phía sau):
    • Là mạng kết nối nội bộ giữa các GPU.
    • Chỉ có giao tiếp GPU ↔ GPU, không có máy chủ.
    • Sử dụng giao thức RoCEv2 để truyền dữ liệu không mất gói (lossless).
    • Thiết kế non-blocking để đảm bảo hiệu suất tối đa.
    • Biểu diễn bằng các đường màu xanh lá cây.

    ⚙️ RoCEv2 (RDMA over Converged Ethernet version 2) cho phép truy cập bộ nhớ từ xa với độ trễ thấp, rất phù hợp cho huấn luyện AI (ví dụ như huấn luyện mô hình GPT-4 hoặc mô hình transformer lớn).

    💡 VÍ DỤ THỰC TẾ:

    Giả sử bạn có một hệ thống gồm 256 GPU để huấn luyện mô hình LLM. Khi đó:
    • Mạng Front End giúp bạn gửi dữ liệu từ cụm lưu trữ đến các node.
    • Mạng Back End đảm bảo các GPU có thể trao đổi gradients, weight updates với nhau nhanh nhất, không bị nghẽn cổ chai.


    🔥 TẠI SAO PHẢI DÙNG NON-BLOCKING CHO GPU?

    Vì GPU rất nhanh. Nếu mạng không đủ nhanh, GPU sẽ “ngồi chơi” chờ dữ liệu. Điều này khiến bạn lãng phí tài nguyên đắt tiền. Mạng non-blocking giúp tận dụng tối đa hiệu suất GPU. Click image for larger version

Name:	Non_Blocking.png
Views:	4
Size:	57.2 KB
ID:	430674
    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X