Vì sao mạng Data Center truyền thống không phù hợp cho AI Training Cluster?

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11497
- Share
- Tweet
#1

Vì sao mạng Data Center truyền thống không phù hợp cho AI Training Cluster?

20-05-2026, 07:07 PM

Nhiều doanh nghiệp khi bắt đầu triển khai AI thường có một suy nghĩ rất tự nhiên: “Data Center hiện tại vẫn đang chạy tốt ERP, VM, database, storage… vậy chỉ cần cắm thêm GPU server vào là xong.”

Nghe hợp lý. Nhưng thực tế, đây là một trong những sai lầm kiến trúc phổ biến nhất khi bước vào AI Infrastructure.

Slide này mô tả chính xác mô hình đó: Retrofit Network Design — tức là lấy hạ tầng mạng enterprise/data center truyền thống rồi “độ chế” để phục vụ AI workload.

Thoạt nhìn, cách này có vẻ tiết kiệm. Nhưng nếu nhìn từ góc độ AI networking thực chiến, đây là công thức dẫn đến bottleneck.
Mô hình retrofit trông như thế nào?

Kiến trúc trong hình là mô hình rất quen thuộc:
Core + Aggregation layer

Top-of-Rack (ToR) / End-of-Row switching

AI Compute Clusters

Storage

Đây chính là tư duy thiết kế data center cổ điển:

Application server → Access → Aggregation → Core → Storage / Other services

Kiến trúc này được sinh ra cho:
North-South traffic

Client-server communication

VM workloads

Traditional enterprise applications

Nhưng AI training không hoạt động như vậy.
AI workload khác hoàn toàn application truyền thống

Một AI training cluster không đơn giản là “nhiều server mạnh”.

Nó là một hệ thống distributed computing cực kỳ nhạy cảm với mạng.

Ví dụ:

Huấn luyện một LLM lớn:
64 GPU

256 GPU

1000+ GPU

Các GPU phải liên tục trao đổi tensor, gradients, synchronization state.

Traffic chủ yếu là:

East-West traffic

tức server nói chuyện với server.

Không phải user → app → database.

Đây là khác biệt cốt lõi.
Các yêu cầu thật sự của AI network

1. Latency cực thấp

Slide ghi:

4.5 microsecond RTT

Đây là mức rất thấp.

Tại sao?

Vì distributed training cần collective communication:
AllReduce

ReduceScatter

AllGather

Broadcast

Mỗi lần sync giữa GPU đều phụ thuộc vào latency.

Chậm vài microsecond có thể nhân lên hàng triệu iteration.

Kết quả:

Training time tăng mạnh.
2. Băng thông cực lớn

Slide đề cập:

400G / 800G

AI server hiện đại có thể có:
8 GPU

16 GPU

multiple NIC 400G

Một node có thể dễ dàng saturate line-rate.

Không phải burst ngắn.

Mà sustained throughput.

Khác hoàn toàn application enterprise.
3. Scale-out cực lớn

Slide nói:

10,000 GPU together

Đây là bài toán khác hoàn toàn traditional DC.

Enterprise network scale bằng:
số VLAN

số VM

số endpoint

AI network scale bằng:

GPU fabric scale

Ví dụ:

Tensor parallelism
Pipeline parallelism
Data parallelism

Mạng trở thành một phần của compute fabric.
Vấn đề của kiến trúc retrofit

1. Spanning Tree là kẻ thù của AI

Slide chỉ ra:

Requires Spanning Tree for loop prevention

Trong enterprise, STP là bình thường.

Trong AI fabric?

Rất tệ.

Vì:

STP block redundant links.

Ví dụ bạn có:

8 uplinks

STP có thể block một phần lớn.

Bạn mua bandwidth nhưng không dùng được.

AI thì cần full bisection bandwidth.

STP làm điều ngược lại.
2. Convergence quá chậm

Slide ghi:

Slow convergence

Traditional network recovery:
STP reconvergence

routing protocol timers

FHRP failover

Milliseconds đến seconds.

AI workload thì sao?

Microseconds matter.

Một pause nhỏ:
timeout

retransmission

collective retry

job slowdown

Nếu đang train model vài triệu USD GPU-hour:

đây là disaster.
3. TCP không phù hợp cho AI fabric

Slide đề cập:

TCP Windowing and Slow Start

Đây là điểm rất quan trọng.

TCP được thiết kế cho internet fairness:
packet loss assumed as congestion

slow start

congestion avoidance

retransmission

AI traffic thì khác:
synchronized

elephant flows

latency sensitive

Một packet loss có thể làm:

tail latency explosion

Và trong collective training:

slowest flow determines job completion time

Một GPU chậm → cả cluster chậm.
4. L2 failure domain quá lớn

Slide chỉ ra:

Large broadcast and failure domains

Traditional L2 scale lớn dẫn đến:
ARP storms

broadcast traffic

MAC churn

STP instability

AI cluster không muốn điều này.

GPU fabric cần deterministic forwarding.

Không phải Ethernet chaos kiểu cũ.
5. Quá nhiều protocol

Slide ghi:

20+ protocols

Enterprise network thường có:
STP

VLAN

HSRP

VRRP

GLBP

OSPF

BGP

MLAG

LACP

QoS

ACL

DHCP relay

IGMP

PIM

AI cluster không thích complexity.

Vì complexity = failure surface.
6. Unique config per device

Đây là classic enterprise pain.

Mỗi switch:

“special snowflake”

Một chút config khác nhau.

AI infrastructure scale lớn không thể vận hành kiểu này.

Cần:
repeatable design

automation

deterministic behavior

Vậy tại sao người ta vẫn retrofit?

Vì slide cũng nói đúng về lợi ích. Chi phí thấp

Reuse thiết bị cũ.

Không phải mua AI fabric mới.

CAPEX thấp.
Ít thay đổi vận hành

Ops team đã quen:
STP

VLAN

OSPF

HSRP

Không cần học fabric mới.
Tribal knowledge

Đội vận hành hiểu hệ thống cũ.

Đây là comfort zone.
Nhưng AI không quan tâm comfort zone

AI workload ép network thay đổi.

Modern AI fabric thường đi theo hướng:
Leaf-Spine

Clos topology

ECMP everywhere

L3 fabric

RoCEv2

PFC

ECN

congestion telemetry

deterministic latency

Hoặc cao hơn:
InfiniBand

NVLink fabric

UEC Ethernet AI fabrics

Tư duy mới là:

Network is part of the compute platform

Không còn là “plumbing”.
Góc nhìn thực chiến

Nếu doanh nghiệp chỉ:
inference nhỏ

vài GPU

PoC AI

Retrofit có thể chấp nhận được.

Nếu mục tiêu:
LLM training

distributed training

GPU cluster scale

AI factory

Thì retrofit là technical debt ngay từ ngày đầu.
Kết luận

Data Center truyền thống được tối ưu cho application.

AI cluster được tối ưu cho synchronized distributed compute.

Hai thế giới này khác nhau từ nền tảng.

Nên câu hỏi không phải:

“Có chạy được không?”

Mà là:

“Chạy được với hiệu suất bao nhiêu, độ ổn định bao nhiêu, và chi phí GPU lãng phí là bao nhiêu?”

Trong AI Infrastructure, mạng chậm không chỉ là vấn đề networking.

Nó là vấn đề ROI.
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next