Nhiều doanh nghiệp khi bắt đầu triển khai AI thường có một suy nghĩ rất tự nhiên: “Data Center hiện tại vẫn đang chạy tốt ERP, VM, database, storage… vậy chỉ cần cắm thêm GPU server vào là xong.”
Nghe hợp lý. Nhưng thực tế, đây là một trong những sai lầm kiến trúc phổ biến nhất khi bước vào AI Infrastructure.
Slide này mô tả chính xác mô hình đó: Retrofit Network Design — tức là lấy hạ tầng mạng enterprise/data center truyền thống rồi “độ chế” để phục vụ AI workload.
Thoạt nhìn, cách này có vẻ tiết kiệm. Nhưng nếu nhìn từ góc độ AI networking thực chiến, đây là công thức dẫn đến bottleneck.
Mô hình retrofit trông như thế nào?
Kiến trúc trong hình là mô hình rất quen thuộc:
Đây chính là tư duy thiết kế data center cổ điển:
Application server → Access → Aggregation → Core → Storage / Other services
Kiến trúc này được sinh ra cho:
Nhưng AI training không hoạt động như vậy.
AI workload khác hoàn toàn application truyền thống
Một AI training cluster không đơn giản là “nhiều server mạnh”.
Nó là một hệ thống distributed computing cực kỳ nhạy cảm với mạng.
Ví dụ:
Huấn luyện một LLM lớn:
Các GPU phải liên tục trao đổi tensor, gradients, synchronization state.
Traffic chủ yếu là:
East-West traffic
tức server nói chuyện với server.
Không phải user → app → database.
Đây là khác biệt cốt lõi.
Các yêu cầu thật sự của AI network
1. Latency cực thấp
Slide ghi:
4.5 microsecond RTT
Đây là mức rất thấp.
Tại sao?
Vì distributed training cần collective communication:
Mỗi lần sync giữa GPU đều phụ thuộc vào latency.
Chậm vài microsecond có thể nhân lên hàng triệu iteration.
Kết quả:
Training time tăng mạnh.
2. Băng thông cực lớn
Slide đề cập:
400G / 800G
AI server hiện đại có thể có:
Một node có thể dễ dàng saturate line-rate.
Không phải burst ngắn.
Mà sustained throughput.
Khác hoàn toàn application enterprise.
3. Scale-out cực lớn
Slide nói:
10,000 GPU together
Đây là bài toán khác hoàn toàn traditional DC.
Enterprise network scale bằng:
AI network scale bằng:
GPU fabric scale
Ví dụ:
Tensor parallelism
Pipeline parallelism
Data parallelism
Mạng trở thành một phần của compute fabric.
Vấn đề của kiến trúc retrofit
1. Spanning Tree là kẻ thù của AI
Slide chỉ ra:
Requires Spanning Tree for loop prevention
Trong enterprise, STP là bình thường.
Trong AI fabric?
Rất tệ.
Vì:
STP block redundant links.
Ví dụ bạn có:
8 uplinks
STP có thể block một phần lớn.
Bạn mua bandwidth nhưng không dùng được.
AI thì cần full bisection bandwidth.
STP làm điều ngược lại.
2. Convergence quá chậm
Slide ghi:
Slow convergence
Traditional network recovery:
Milliseconds đến seconds.
AI workload thì sao?
Microseconds matter.
Một pause nhỏ:
Nếu đang train model vài triệu USD GPU-hour:
đây là disaster.
3. TCP không phù hợp cho AI fabric
Slide đề cập:
TCP Windowing and Slow Start
Đây là điểm rất quan trọng.
TCP được thiết kế cho internet fairness:
AI traffic thì khác:
Một packet loss có thể làm:
tail latency explosion
Và trong collective training:
slowest flow determines job completion time
Một GPU chậm → cả cluster chậm.
4. L2 failure domain quá lớn
Slide chỉ ra:
Large broadcast and failure domains
Traditional L2 scale lớn dẫn đến:
AI cluster không muốn điều này.
GPU fabric cần deterministic forwarding.
Không phải Ethernet chaos kiểu cũ.
5. Quá nhiều protocol
Slide ghi:
20+ protocols
Enterprise network thường có:
AI cluster không thích complexity.
Vì complexity = failure surface.
6. Unique config per device
Đây là classic enterprise pain.
Mỗi switch:
“special snowflake”
Một chút config khác nhau.
AI infrastructure scale lớn không thể vận hành kiểu này.
Cần:
Vậy tại sao người ta vẫn retrofit?
Vì slide cũng nói đúng về lợi ích. Chi phí thấp
Reuse thiết bị cũ.
Không phải mua AI fabric mới.
CAPEX thấp.
Ít thay đổi vận hành
Ops team đã quen:
Không cần học fabric mới.
Tribal knowledge
Đội vận hành hiểu hệ thống cũ.
Đây là comfort zone.
Nhưng AI không quan tâm comfort zone
AI workload ép network thay đổi.
Modern AI fabric thường đi theo hướng:
Hoặc cao hơn:
Tư duy mới là:
Network is part of the compute platform
Không còn là “plumbing”.
Góc nhìn thực chiến
Nếu doanh nghiệp chỉ:
Retrofit có thể chấp nhận được.
Nếu mục tiêu:
Thì retrofit là technical debt ngay từ ngày đầu.
Kết luận
Data Center truyền thống được tối ưu cho application.
AI cluster được tối ưu cho synchronized distributed compute.
Hai thế giới này khác nhau từ nền tảng.
Nên câu hỏi không phải:
“Có chạy được không?”
Mà là:
“Chạy được với hiệu suất bao nhiêu, độ ổn định bao nhiêu, và chi phí GPU lãng phí là bao nhiêu?”
Trong AI Infrastructure, mạng chậm không chỉ là vấn đề networking.
Nó là vấn đề ROI.
Nghe hợp lý. Nhưng thực tế, đây là một trong những sai lầm kiến trúc phổ biến nhất khi bước vào AI Infrastructure.
Slide này mô tả chính xác mô hình đó: Retrofit Network Design — tức là lấy hạ tầng mạng enterprise/data center truyền thống rồi “độ chế” để phục vụ AI workload.
Thoạt nhìn, cách này có vẻ tiết kiệm. Nhưng nếu nhìn từ góc độ AI networking thực chiến, đây là công thức dẫn đến bottleneck.
Mô hình retrofit trông như thế nào?
Kiến trúc trong hình là mô hình rất quen thuộc:
- Core + Aggregation layer
- Top-of-Rack (ToR) / End-of-Row switching
- AI Compute Clusters
- Storage
Đây chính là tư duy thiết kế data center cổ điển:
Application server → Access → Aggregation → Core → Storage / Other services
Kiến trúc này được sinh ra cho:
- North-South traffic
- Client-server communication
- VM workloads
- Traditional enterprise applications
Nhưng AI training không hoạt động như vậy.
AI workload khác hoàn toàn application truyền thống
Một AI training cluster không đơn giản là “nhiều server mạnh”.
Nó là một hệ thống distributed computing cực kỳ nhạy cảm với mạng.
Ví dụ:
Huấn luyện một LLM lớn:
- 64 GPU
- 256 GPU
- 1000+ GPU
Các GPU phải liên tục trao đổi tensor, gradients, synchronization state.
Traffic chủ yếu là:
East-West traffic
tức server nói chuyện với server.
Không phải user → app → database.
Đây là khác biệt cốt lõi.
Các yêu cầu thật sự của AI network
1. Latency cực thấp
Slide ghi:
4.5 microsecond RTT
Đây là mức rất thấp.
Tại sao?
Vì distributed training cần collective communication:
- AllReduce
- ReduceScatter
- AllGather
- Broadcast
Mỗi lần sync giữa GPU đều phụ thuộc vào latency.
Chậm vài microsecond có thể nhân lên hàng triệu iteration.
Kết quả:
Training time tăng mạnh.
2. Băng thông cực lớn
Slide đề cập:
400G / 800G
AI server hiện đại có thể có:
- 8 GPU
- 16 GPU
- multiple NIC 400G
Một node có thể dễ dàng saturate line-rate.
Không phải burst ngắn.
Mà sustained throughput.
Khác hoàn toàn application enterprise.
3. Scale-out cực lớn
Slide nói:
10,000 GPU together
Đây là bài toán khác hoàn toàn traditional DC.
Enterprise network scale bằng:
- số VLAN
- số VM
- số endpoint
AI network scale bằng:
GPU fabric scale
Ví dụ:
Tensor parallelism
Pipeline parallelism
Data parallelism
Mạng trở thành một phần của compute fabric.
Vấn đề của kiến trúc retrofit
1. Spanning Tree là kẻ thù của AI
Slide chỉ ra:
Requires Spanning Tree for loop prevention
Trong enterprise, STP là bình thường.
Trong AI fabric?
Rất tệ.
Vì:
STP block redundant links.
Ví dụ bạn có:
8 uplinks
STP có thể block một phần lớn.
Bạn mua bandwidth nhưng không dùng được.
AI thì cần full bisection bandwidth.
STP làm điều ngược lại.
2. Convergence quá chậm
Slide ghi:
Slow convergence
Traditional network recovery:
- STP reconvergence
- routing protocol timers
- FHRP failover
Milliseconds đến seconds.
AI workload thì sao?
Microseconds matter.
Một pause nhỏ:
- timeout
- retransmission
- collective retry
- job slowdown
Nếu đang train model vài triệu USD GPU-hour:
đây là disaster.
3. TCP không phù hợp cho AI fabric
Slide đề cập:
TCP Windowing and Slow Start
Đây là điểm rất quan trọng.
TCP được thiết kế cho internet fairness:
- packet loss assumed as congestion
- slow start
- congestion avoidance
- retransmission
AI traffic thì khác:
- synchronized
- elephant flows
- latency sensitive
Một packet loss có thể làm:
tail latency explosion
Và trong collective training:
slowest flow determines job completion time
Một GPU chậm → cả cluster chậm.
4. L2 failure domain quá lớn
Slide chỉ ra:
Large broadcast and failure domains
Traditional L2 scale lớn dẫn đến:
- ARP storms
- broadcast traffic
- MAC churn
- STP instability
AI cluster không muốn điều này.
GPU fabric cần deterministic forwarding.
Không phải Ethernet chaos kiểu cũ.
5. Quá nhiều protocol
Slide ghi:
20+ protocols
Enterprise network thường có:
- STP
- VLAN
- HSRP
- VRRP
- GLBP
- OSPF
- BGP
- MLAG
- LACP
- QoS
- ACL
- DHCP relay
- IGMP
- PIM
AI cluster không thích complexity.
Vì complexity = failure surface.
6. Unique config per device
Đây là classic enterprise pain.
Mỗi switch:
“special snowflake”
Một chút config khác nhau.
AI infrastructure scale lớn không thể vận hành kiểu này.
Cần:
- repeatable design
- automation
- deterministic behavior
Vậy tại sao người ta vẫn retrofit?
Vì slide cũng nói đúng về lợi ích. Chi phí thấp
Reuse thiết bị cũ.
Không phải mua AI fabric mới.
CAPEX thấp.
Ít thay đổi vận hành
Ops team đã quen:
- STP
- VLAN
- OSPF
- HSRP
Không cần học fabric mới.
Tribal knowledge
Đội vận hành hiểu hệ thống cũ.
Đây là comfort zone.
Nhưng AI không quan tâm comfort zone
AI workload ép network thay đổi.
Modern AI fabric thường đi theo hướng:
- Leaf-Spine
- Clos topology
- ECMP everywhere
- L3 fabric
- RoCEv2
- PFC
- ECN
- congestion telemetry
- deterministic latency
Hoặc cao hơn:
- InfiniBand
- NVLink fabric
- UEC Ethernet AI fabrics
Tư duy mới là:
Network is part of the compute platform
Không còn là “plumbing”.
Góc nhìn thực chiến
Nếu doanh nghiệp chỉ:
- inference nhỏ
- vài GPU
- PoC AI
Retrofit có thể chấp nhận được.
Nếu mục tiêu:
- LLM training
- distributed training
- GPU cluster scale
- AI factory
Thì retrofit là technical debt ngay từ ngày đầu.
Kết luận
Data Center truyền thống được tối ưu cho application.
AI cluster được tối ưu cho synchronized distributed compute.
Hai thế giới này khác nhau từ nền tảng.
Nên câu hỏi không phải:
“Có chạy được không?”
Mà là:
“Chạy được với hiệu suất bao nhiêu, độ ổn định bao nhiêu, và chi phí GPU lãng phí là bao nhiêu?”
Trong AI Infrastructure, mạng chậm không chỉ là vấn đề networking.
Nó là vấn đề ROI.