🚀 Kiến trúc Data Center Fabric có khả năng mở rộng cực lớn (Massively Scalable DC Fabric)
Trong kỷ nguyên AI và High-Performance Computing (HPC), hạ tầng mạng không còn chỉ là “kết nối” – mà trở thành yếu tố quyết định hiệu năng toàn hệ thống.
Slide này mô tả một kiến trúc Data Center Fabric hiện đại – thứ đang đứng sau các cụm GPU training LLM, hệ thống AI inference, và cloud hyperscale.
🧩 1. Các topology hỗ trợ
Hệ thống có thể triển khai linh hoạt theo nhiều mô hình:
👉 Insight:
Trong AI Infrastructure, Leaf-Spine + Rail Design gần như là tiêu chuẩn để tối ưu east-west traffic.
🌐 2. Thiết kế Layer 3 (L3 Fabric)
Toàn bộ fabric chạy Layer 3 thay vì Layer 2.
👉 Vì sao quan trọng?
👉 Đây là nền tảng của:
🔁 3. Routing: EBGP làm “xương sống”
👉 Tại sao lại dùng eBGP thay vì OSPF/IS-IS?
⚠️ Lưu ý:
Link-state protocol vẫn dùng được, nhưng gặp vấn đề:
⚖️ 4. ECMP + Dynamic Load Balancing
👉 Ý nghĩa thực tế:
Trong AI workload (ví dụ: distributed training):
👉 ECMP + DLB giúp:
🌍 5. Hỗ trợ IPv4 & IPv6
👉 Đây là xu hướng:
⚡ 6. RDMA – Trái tim của AI Networking
Hỗ trợ RDMA (Remote Direct Memory Access)
→ cho phép truyền dữ liệu trực tiếp giữa memory của các server Với RoCEv2 cần:
👉 Đây là điểm cực kỳ quan trọng:
Nếu cấu hình sai:
👉 Đây là lý do:
👉 Network Engineer đang trở thành AI Infrastructure Engineer
🔄 7. Continuous Operation – Vận hành không gián đoạn
Hệ thống được thiết kế để không downtime
Bao gồm:
👉 Trong môi trường AI:
🔥 Góc nhìn thực chiến (AI + Network)
Kiến trúc này không phải lý thuyết – nó chính là nền tảng của:
🧠 Kết luận
Một DC Fabric hiện đại cho AI cần:
👉 Và điều quan trọng nhất:
Networking không còn là “hạ tầng phụ” nữa.
Nó chính là “bottleneck hoặc accelerator” của AI.
Nếu bạn đang là Network Engineer:
👉 Đây chính là con đường chuyển dịch:
Networking → AI Infrastructure
Trong kỷ nguyên AI và High-Performance Computing (HPC), hạ tầng mạng không còn chỉ là “kết nối” – mà trở thành yếu tố quyết định hiệu năng toàn hệ thống.
Slide này mô tả một kiến trúc Data Center Fabric hiện đại – thứ đang đứng sau các cụm GPU training LLM, hệ thống AI inference, và cloud hyperscale.
🧩 1. Các topology hỗ trợ
Hệ thống có thể triển khai linh hoạt theo nhiều mô hình:
- Two-Tier (Leaf–Spine) → phổ biến nhất trong AI/DC hiện đại
- Three-Tier → truyền thống (Core–Aggregation–Access)
- Rail topology → thường dùng trong AI cluster (phân luồng traffic theo GPU fabric)
👉 Insight:
Trong AI Infrastructure, Leaf-Spine + Rail Design gần như là tiêu chuẩn để tối ưu east-west traffic.
🌐 2. Thiết kế Layer 3 (L3 Fabric)
Toàn bộ fabric chạy Layer 3 thay vì Layer 2.
👉 Vì sao quan trọng?
- Tránh loop, STP
- Scale tốt hơn
- Failure domain nhỏ hơn
- Converge nhanh hơn
👉 Đây là nền tảng của:
- Clos Fabric
- Spine-Leaf Architecture
- Cloud Data Center
🔁 3. Routing: EBGP làm “xương sống”
- Sử dụng eBGP peering qua các link point-to-point
- Mỗi tier có thể dùng ASN khác nhau
👉 Tại sao lại dùng eBGP thay vì OSPF/IS-IS?
- Scale tốt hơn (rất quan trọng trong AI cluster hàng ngàn node)
- Control policy linh hoạt
- Không bị flooding như link-state
⚠️ Lưu ý:
Link-state protocol vẫn dùng được, nhưng gặp vấn đề:
- Flooding overhead
- Update propagation chậm
- Khó detect topology động lớn
⚖️ 4. ECMP + Dynamic Load Balancing
- Sử dụng ECMP (Equal-Cost Multi-Path)
- Kết hợp DLB (Dynamic Load Balancing)
👉 Ý nghĩa thực tế:
Trong AI workload (ví dụ: distributed training):
- Traffic là all-to-all
- Nếu load không đều → GPU idle → mất tiền cực lớn
👉 ECMP + DLB giúp:
- Phân phối traffic đều
- Giảm congestion
- Tăng throughput tổng thể
🌍 5. Hỗ trợ IPv4 & IPv6
- Hỗ trợ dual-stack
- Áp dụng RFC 5549:
- IPv4 NLRI over IPv6 next-hop
👉 Đây là xu hướng:
- Fabric chạy IPv6
- Nhưng vẫn support workload IPv4
⚡ 6. RDMA – Trái tim của AI Networking
Hỗ trợ RDMA (Remote Direct Memory Access)
→ cho phép truyền dữ liệu trực tiếp giữa memory của các server Với RoCEv2 cần:
- QoS (Quality of Service)
- PFC (Priority Flow Control)
- ECN (Explicit Congestion Notification)
👉 Đây là điểm cực kỳ quan trọng:
Nếu cấu hình sai:
- Packet loss → RDMA fail
- Training AI chậm hoặc crash
👉 Đây là lý do:
👉 Network Engineer đang trở thành AI Infrastructure Engineer
🔄 7. Continuous Operation – Vận hành không gián đoạn
Hệ thống được thiết kế để không downtime
Bao gồm:
- GIR (Graceful Insertion & Removal)
→ thêm/bớt thiết bị không ảnh hưởng traffic - NSF (Nonstop Forwarding)
→ forwarding vẫn chạy dù control plane restart - GR (Graceful Restart)
→ routing không bị gián đoạn - Hitless Upgrade
→ nâng cấp không downtime
👉 Trong môi trường AI:
- 1 job training có thể chạy vài ngày đến vài tuần
- Downtime = mất toàn bộ compute cost
🔥 Góc nhìn thực chiến (AI + Network)
Kiến trúc này không phải lý thuyết – nó chính là nền tảng của:
- NVIDIA DGX SuperPOD
- Azure AI clusters
- AWS Trainium / GPU clusters
- Google TPU fabric
🧠 Kết luận
Một DC Fabric hiện đại cho AI cần:
- L3 Spine-Leaf
- eBGP everywhere
- ECMP + DLB
- RDMA-ready network
- Zero-downtime operation
👉 Và điều quan trọng nhất:
Networking không còn là “hạ tầng phụ” nữa.
Nó chính là “bottleneck hoặc accelerator” của AI.
Nếu bạn đang là Network Engineer:
👉 Đây chính là con đường chuyển dịch:
Networking → AI Infrastructure