Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Vì sao mạng Data Center truyền thống không phù hợp cho AI Training Cluster?

    Nhiều doanh nghiệp khi bắt đầu triển khai AI thường có một suy nghĩ rất tự nhiên: “Data Center hiện tại vẫn đang chạy tốt ERP, VM, database, storage… vậy chỉ cần cắm thêm GPU server vào là xong.”

    Nghe hợp lý. Nhưng thực tế, đây là một trong những sai lầm kiến trúc phổ biến nhất khi bước vào AI Infrastructure.

    Slide này mô tả chính xác mô hình đó: Retrofit Network Design — tức là lấy hạ tầng mạng enterprise/data center truyền thống rồi “độ chế” để phục vụ AI workload.

    Thoạt nhìn, cách này có vẻ tiết kiệm. Nhưng nếu nhìn từ góc độ AI networking thực chiến, đây là công thức dẫn đến bottleneck.
    Mô hình retrofit trông như thế nào?


    Kiến trúc trong hình là mô hình rất quen thuộc:
    • Core + Aggregation layer
    • Top-of-Rack (ToR) / End-of-Row switching
    • AI Compute Clusters
    • Storage

    Đây chính là tư duy thiết kế data center cổ điển:

    Application server → Access → Aggregation → Core → Storage / Other services

    Kiến trúc này được sinh ra cho:
    • North-South traffic
    • Client-server communication
    • VM workloads
    • Traditional enterprise applications

    Nhưng AI training không hoạt động như vậy.
    AI workload khác hoàn toàn application truyền thống


    Một AI training cluster không đơn giản là “nhiều server mạnh”.

    Nó là một hệ thống distributed computing cực kỳ nhạy cảm với mạng.

    Ví dụ:

    Huấn luyện một LLM lớn:
    • 64 GPU
    • 256 GPU
    • 1000+ GPU

    Các GPU phải liên tục trao đổi tensor, gradients, synchronization state.

    Traffic chủ yếu là:

    East-West traffic

    tức server nói chuyện với server.

    Không phải user → app → database.

    Đây là khác biệt cốt lõi.
    Các yêu cầu thật sự của AI network

    1. Latency cực thấp


    Slide ghi:

    4.5 microsecond RTT

    Đây là mức rất thấp.

    Tại sao?

    Vì distributed training cần collective communication:
    • AllReduce
    • ReduceScatter
    • AllGather
    • Broadcast

    Mỗi lần sync giữa GPU đều phụ thuộc vào latency.

    Chậm vài microsecond có thể nhân lên hàng triệu iteration.

    Kết quả:

    Training time tăng mạnh.
    2. Băng thông cực lớn


    Slide đề cập:

    400G / 800G

    AI server hiện đại có thể có:
    • 8 GPU
    • 16 GPU
    • multiple NIC 400G

    Một node có thể dễ dàng saturate line-rate.

    Không phải burst ngắn.

    Mà sustained throughput.

    Khác hoàn toàn application enterprise.
    3. Scale-out cực lớn


    Slide nói:

    10,000 GPU together

    Đây là bài toán khác hoàn toàn traditional DC.

    Enterprise network scale bằng:
    • số VLAN
    • số VM
    • số endpoint

    AI network scale bằng:

    GPU fabric scale

    Ví dụ:

    Tensor parallelism
    Pipeline parallelism
    Data parallelism

    Mạng trở thành một phần của compute fabric.
    Vấn đề của kiến trúc retrofit

    1. Spanning Tree là kẻ thù của AI


    Slide chỉ ra:

    Requires Spanning Tree for loop prevention

    Trong enterprise, STP là bình thường.

    Trong AI fabric?

    Rất tệ.

    Vì:

    STP block redundant links.

    Ví dụ bạn có:

    8 uplinks

    STP có thể block một phần lớn.

    Bạn mua bandwidth nhưng không dùng được.

    AI thì cần full bisection bandwidth.

    STP làm điều ngược lại.
    2. Convergence quá chậm


    Slide ghi:

    Slow convergence

    Traditional network recovery:
    • STP reconvergence
    • routing protocol timers
    • FHRP failover

    Milliseconds đến seconds.

    AI workload thì sao?

    Microseconds matter.

    Một pause nhỏ:
    • timeout
    • retransmission
    • collective retry
    • job slowdown

    Nếu đang train model vài triệu USD GPU-hour:

    đây là disaster.
    3. TCP không phù hợp cho AI fabric


    Slide đề cập:

    TCP Windowing and Slow Start

    Đây là điểm rất quan trọng.

    TCP được thiết kế cho internet fairness:
    • packet loss assumed as congestion
    • slow start
    • congestion avoidance
    • retransmission

    AI traffic thì khác:
    • synchronized
    • elephant flows
    • latency sensitive

    Một packet loss có thể làm:

    tail latency explosion

    Và trong collective training:

    slowest flow determines job completion time

    Một GPU chậm → cả cluster chậm.
    4. L2 failure domain quá lớn


    Slide chỉ ra:

    Large broadcast and failure domains

    Traditional L2 scale lớn dẫn đến:
    • ARP storms
    • broadcast traffic
    • MAC churn
    • STP instability

    AI cluster không muốn điều này.

    GPU fabric cần deterministic forwarding.

    Không phải Ethernet chaos kiểu cũ.
    5. Quá nhiều protocol


    Slide ghi:

    20+ protocols

    Enterprise network thường có:
    • STP
    • VLAN
    • HSRP
    • VRRP
    • GLBP
    • OSPF
    • BGP
    • MLAG
    • LACP
    • QoS
    • ACL
    • DHCP relay
    • IGMP
    • PIM

    AI cluster không thích complexity.

    Vì complexity = failure surface.
    6. Unique config per device


    Đây là classic enterprise pain.

    Mỗi switch:

    “special snowflake”

    Một chút config khác nhau.

    AI infrastructure scale lớn không thể vận hành kiểu này.

    Cần:
    • repeatable design
    • automation
    • deterministic behavior

    Vậy tại sao người ta vẫn retrofit?


    Vì slide cũng nói đúng về lợi ích. Chi phí thấp


    Reuse thiết bị cũ.

    Không phải mua AI fabric mới.

    CAPEX thấp.
    Ít thay đổi vận hành


    Ops team đã quen:
    • STP
    • VLAN
    • OSPF
    • HSRP

    Không cần học fabric mới.
    Tribal knowledge


    Đội vận hành hiểu hệ thống cũ.

    Đây là comfort zone.
    Nhưng AI không quan tâm comfort zone


    AI workload ép network thay đổi.

    Modern AI fabric thường đi theo hướng:
    • Leaf-Spine
    • Clos topology
    • ECMP everywhere
    • L3 fabric
    • RoCEv2
    • PFC
    • ECN
    • congestion telemetry
    • deterministic latency

    Hoặc cao hơn:
    • InfiniBand
    • NVLink fabric
    • UEC Ethernet AI fabrics

    Tư duy mới là:

    Network is part of the compute platform

    Không còn là “plumbing”.
    Góc nhìn thực chiến


    Nếu doanh nghiệp chỉ:
    • inference nhỏ
    • vài GPU
    • PoC AI

    Retrofit có thể chấp nhận được.

    Nếu mục tiêu:
    • LLM training
    • distributed training
    • GPU cluster scale
    • AI factory

    Thì retrofit là technical debt ngay từ ngày đầu.
    Kết luận


    Data Center truyền thống được tối ưu cho application.

    AI cluster được tối ưu cho synchronized distributed compute.

    Hai thế giới này khác nhau từ nền tảng.

    Nên câu hỏi không phải:

    “Có chạy được không?”

    Mà là:

    “Chạy được với hiệu suất bao nhiêu, độ ổn định bao nhiêu, và chi phí GPU lãng phí là bao nhiêu?”

    Trong AI Infrastructure, mạng chậm không chỉ là vấn đề networking.

    Nó là vấn đề ROI.​
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X