Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Các kiểu mạng cho AI

    Kiến trúc AI/ML hiện đại không còn là câu chuyện của một mạng duy nhất như data center truyền thống. Khi bước vào thế giới AI training và inference ở quy mô lớn, đặc biệt với GPU cluster, chúng ta gần như luôn phải nghĩ theo mô hình multiple network fabrics, vì mỗi loại traffic có đặc tính hoàn toàn khác nhau.

    Ở phía trên cùng của sơ đồ là Inter-GPU Backend Network. Đây là mạng quan trọng nhất trong các cụm AI training. Nó xử lý lưu lượng East-West traffic giữa các GPU nodes, tức GPU này trao đổi dữ liệu trực tiếp với GPU khác trong quá trình distributed training. Hãy hình dung khi huấn luyện một LLM lớn, mô hình được chia nhỏ qua nhiều GPU và các GPU phải liên tục đồng bộ gradient, weight updates, tensor exchange. Đây là loại traffic cực kỳ nhạy với latency, jitter và packet loss. Chỉ cần microburst hoặc congestion nhỏ cũng có thể làm throughput toàn cluster sụt giảm mạnh. Vì vậy backend fabric này thường dùng InfiniBand, RoCEv2 trên Ethernet lossless, hoặc Ethernet tốc độ cực cao như 100G/200G/400G/800G, với spine-leaf non-blocking fabric.

    Bên dưới là Front-end Network. Đây là mạng phục vụ traffic kiểu North-South, nơi client, ứng dụng, API gateway hoặc inference request đi vào cluster AI. Nếu backend là “đường cao tốc nội bộ cho GPU”, thì front-end là “cổng giao tiếp với thế giới bên ngoài”. Traffic ở đây thường là API request, inference query, model serving traffic. Đặc tính khác backend vì throughput có thể cao nhưng latency sensitivity không mang tính synchronized như GPU collective communication.

    Tiếp theo là Storage Network. AI không chỉ cần compute mạnh mà còn cần data pipeline cực lớn. Dataset training có thể lên đến hàng chục hoặc hàng trăm TB, thậm chí PB. GPU có thể rất nhanh, nhưng nếu storage không feed dữ liệu đủ tốc độ thì GPU sẽ idle. Đây chính là bottleneck cực phổ biến khi triển khai AI thực tế. Vì vậy storage fabric thường tối ưu cho throughput cao, parallel access, hỗ trợ NVMe-oF, distributed storage, object storage hoặc high-performance parallel filesystem.

    Cuối cùng là Management Network. Đây là mạng dành cho SSH, telemetry, monitoring, automation, provisioning, firmware management, out-of-band access, BMC/iDRAC/iLO management. Đây không phải mạng hiệu năng cao nhưng cực kỳ quan trọng về vận hành và bảo mật.

    Một chi tiết đáng chú ý trong slide là dòng “May be converged to a shared physical network”. Điều này phản ánh thực tế thiết kế. Về mặt logic, các loại traffic nên tách biệt vì yêu cầu khác nhau. Nhưng về mặt vật lý, doanh nghiệp có thể hội tụ chúng lên cùng hạ tầng Ethernet tốc độ cao bằng cách dùng QoS, VRF, VLAN, VXLAN, PFC, ECN, traffic engineering để tiết kiệm CAPEX. Tuy nhiên, trong các AI factory quy mô lớn, backend AI fabric thường vẫn được tách riêng để tránh contention.

    Nếu nhìn dưới góc độ network engineer, AI Data Center thực chất đang kéo networking quay trở lại vị trí trung tâm. CPU-centric DC trước đây có thể “chịu đựng” mạng chưa tối ưu. Nhưng AI cluster thì không. Một fabric thiết kế sai có thể biến cụm GPU trị giá hàng triệu đô thành hệ thống chạy ì ạch.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X