📌 AI Workload Requirements – Yêu cầu hạ tầng cho AI (Dành cho người làm IT & Networking)
Trong các bài trước, chúng ta đã nói nhiều về AI Infrastructure, AI Agent, và sự khác biệt giữa AI Dev và Networking for AI. Hôm nay, chúng ta đi sâu hơn vào một câu hỏi rất quan trọng:
👉 Một hệ thống AI thực sự cần gì từ hạ tầng?
🧠 1. Technical Requirements – Yêu cầu kỹ thuật của AI
Đây là phần mà đa số kỹ sư hạ tầng (network, system, cloud) sẽ chịu trách nhiệm chính.
🔹 Zero Loss – Không được mất dữ liệu
AI training (đặc biệt là distributed training) cực kỳ nhạy cảm với packet loss.
👉 Đây là lý do vì sao:
🔹 Low Latency – Độ trễ cực thấp
Ví dụ trong slide:
👉 Đây là mức latency của:
📌 Vì sao quan trọng?
🔹 High Bandwidth – Băng thông cực lớn
👉 Không phải north-south traffic như web
👉 Mà là east-west traffic cực nặng
🔹 Optimal Path Selection – Chọn đường đi tối ưu
👉 Nếu routing không tối ưu:
🔹 Congestion Avoidance & Notification
👉 Đây là “bí mật” của AI network:
🔹 Flow Control – Kiểm soát luồng
Slide có câu rất hay:
👉 Khác với network truyền thống:
📌 Chỉ cần 1 flow bị chậm:
→ cả job AI bị ảnh hưởng
🔹 Quality of Service (QoS)
🔹 Security – Bảo mật
Không chỉ là firewall:
👉 AI = tài sản trí tuệ cực lớn
🔹 Observability – Khả năng quan sát
Bao gồm:
📌 Công cụ:
🔹 Job Completion Time (JCT)
👉 KPI quan trọng nhất trong AI
👉 Mà là:
🔹 Storage
Ví dụ:
🔹 Data Center (Power, Space, Cooling)
AI không chỉ là IT, mà là facility engineering:
🔹 Scalable & Predictable
👉 Không thể “random performance” trong AI
⚙️ 2. Other Requirements – Các yếu tố ngoài kỹ thuật
Đây là phần nhiều doanh nghiệp đánh giá thấp nhưng cực kỳ quan trọng.
🔹 Data Concerns – Các vấn đề về dữ liệu
Bao gồm:
👉 AI chỉ tốt khi dữ liệu tốt
🔹 Money (CAPEX / OPEX)
AI rất đắt:
👉 Câu hỏi lớn:
🔹 People (Con người)
Bao gồm:
👉 Thiếu người giỏi:
→ hệ thống AI sẽ thất bại dù đầu tư lớn
🔹 Support (Operational Sustainability)
👉 AI system = luôn phải chạy 24/7
🔹 Agile / Lean IT
👉 AI không phải project 1 lần
→ mà là continuous improvement
🚀 Góc nhìn thực chiến cho kỹ sư mạng & hạ tầng
Nếu bạn là Network Engineer hoặc System Engineer:
👉 Đây là sự thật:
AI không cần network “ổn”
AI cần network “perfect”
📌 So sánh nhanh
🎯 Kết luận
AI không chỉ là:
👉 Mà phía sau là một hệ thống:
Trong các bài trước, chúng ta đã nói nhiều về AI Infrastructure, AI Agent, và sự khác biệt giữa AI Dev và Networking for AI. Hôm nay, chúng ta đi sâu hơn vào một câu hỏi rất quan trọng:
👉 Một hệ thống AI thực sự cần gì từ hạ tầng?
🧠 1. Technical Requirements – Yêu cầu kỹ thuật của AI
Đây là phần mà đa số kỹ sư hạ tầng (network, system, cloud) sẽ chịu trách nhiệm chính.
🔹 Zero Loss – Không được mất dữ liệu
AI training (đặc biệt là distributed training) cực kỳ nhạy cảm với packet loss.
- Chỉ cần mất một packet → có thể phải retransmit toàn bộ job
- Trong AI cluster → “loss = performance collapse”
👉 Đây là lý do vì sao:
- RDMA / RoCE được dùng
- Data Center network phải cực kỳ ổn định
🔹 Low Latency – Độ trễ cực thấp
Ví dụ trong slide:
- RTT ~ 4.5 microseconds (µs)
👉 Đây là mức latency của:
- High-performance DC (InfiniBand / RoCE)
- Không phải network enterprise thông thường
📌 Vì sao quan trọng?
- AI training cần synchronization giữa GPU nodes
- Latency cao → GPU idle → lãng phí hàng triệu USD hardware
🔹 High Bandwidth – Băng thông cực lớn
- AI workload (LLM training) cần:
- 100Gbps / 200Gbps / 400Gbps NIC
- Traffic kiểu:
- All-to-All communication
👉 Không phải north-south traffic như web
👉 Mà là east-west traffic cực nặng
🔹 Optimal Path Selection – Chọn đường đi tối ưu
- ECMP
- Load balancing
- Spine-Leaf architecture
👉 Nếu routing không tối ưu:
- Congestion xảy ra
- Một GPU node bị chậm → cả cluster bị kéo xuống
🔹 Congestion Avoidance & Notification
- ECN (Explicit Congestion Notification)
- PFC (Priority Flow Control)
👉 Đây là “bí mật” của AI network:
- Không chỉ tránh nghẽn
- Mà phải phản ứng realtime khi nghẽn xảy ra
🔹 Flow Control – Kiểm soát luồng
Slide có câu rất hay:
“few large flows – worst flow matters!”
👉 Khác với network truyền thống:
- Không phải nhiều flow nhỏ
- Mà là ít flow nhưng cực lớn
📌 Chỉ cần 1 flow bị chậm:
→ cả job AI bị ảnh hưởng
🔹 Quality of Service (QoS)
- Ưu tiên traffic AI
- Phân loại:
- Storage traffic
- Training traffic
- Control traffic
🔹 Security – Bảo mật
Không chỉ là firewall:
- Bảo vệ model
- Bảo vệ dataset
- Bảo vệ pipeline training
👉 AI = tài sản trí tuệ cực lớn
🔹 Observability – Khả năng quan sát
Bao gồm:
- Performance
- Quality
- Availability
📌 Công cụ:
- Telemetry
- NetFlow
- GPU monitoring
- AI observability platforms
🔹 Job Completion Time (JCT)
👉 KPI quan trọng nhất trong AI
- Không phải CPU usage
- Không phải bandwidth
👉 Mà là:
“Mất bao lâu để train xong model?”
🔹 Storage
- Distributed storage
- High throughput
- Low latency
Ví dụ:
- NVMe over Fabric
- Parallel file system
🔹 Data Center (Power, Space, Cooling)
AI không chỉ là IT, mà là facility engineering:
- GPU cluster tiêu thụ:
- hàng MW điện
- Cooling:
- liquid cooling
- immersion cooling
🔹 Scalable & Predictable
- Scale-out dễ dàng
- Performance phải predictable
👉 Không thể “random performance” trong AI
⚙️ 2. Other Requirements – Các yếu tố ngoài kỹ thuật
Đây là phần nhiều doanh nghiệp đánh giá thấp nhưng cực kỳ quan trọng.
🔹 Data Concerns – Các vấn đề về dữ liệu
Bao gồm:
- Classification – phân loại dữ liệu
- Sovereignty – dữ liệu ở quốc gia nào
- Lifecycle – vòng đời dữ liệu
- Intellectual Property (IP) – sở hữu trí tuệ
- Data Loss – mất dữ liệu
- Data Quality – chất lượng dữ liệu
👉 AI chỉ tốt khi dữ liệu tốt
🔹 Money (CAPEX / OPEX)
AI rất đắt:
- GPU cluster: triệu USD
- Network: 100/400G fabric
- Storage: high-performance tier
👉 Câu hỏi lớn:
- Build hay thuê cloud?
- ROI có đáng không?
🔹 People (Con người)
Bao gồm:
- Skillset
- Training
- Vận hành
👉 Thiếu người giỏi:
→ hệ thống AI sẽ thất bại dù đầu tư lớn
🔹 Support (Operational Sustainability)
- Monitoring
- Troubleshooting
- Lifecycle management
👉 AI system = luôn phải chạy 24/7
🔹 Agile / Lean IT
- Triển khai nhanh
- Thử nghiệm liên tục
- Iteration nhanh
👉 AI không phải project 1 lần
→ mà là continuous improvement
🚀 Góc nhìn thực chiến cho kỹ sư mạng & hạ tầng
Nếu bạn là Network Engineer hoặc System Engineer:
👉 Đây là sự thật:
AI không cần network “ổn”
AI cần network “perfect”
📌 So sánh nhanh
| Best effort | Deterministic |
| Latency ms | Latency µs |
| Packet loss OK | Packet loss = disaster |
| North-South | East-West heavy |
| Many small flows | Few huge flows |
🎯 Kết luận
AI không chỉ là:
- Model
- Prompt
- ChatGPT
👉 Mà phía sau là một hệ thống:
- Network cực nhanh
- Storage cực mạnh
- Data cực chuẩn
- Con người cực giỏi