🎯 [AI Infra Series] Băng thông & Lưu trữ – Trái tim hiệu năng của hạ tầng AI
Trong hạ tầng AI truyền thống, không chỉ CPU hay GPU mới đóng vai trò then chốt. Để một mô hình AI huấn luyện được trơn tru, nhanh chóng và hiệu quả, hai yếu tố băng thông mạng và hạ tầng lưu trữ là “đòn bẩy” quyết định hiệu năng toàn hệ thống.
🌐 Băng thông mạng – Vấn đề sống còn khi AI cần “trao đổi chất”
Tốc độ truyền dữ liệu giữa các GPU, node hoặc cụm (cluster) trong quá trình training mô hình AI ảnh hưởng trực tiếp đến thời gian hoàn thành training – có thể rút ngắn từ vài tuần xuống vài giờ nếu hạ tầng đủ mạnh. Vì sao?
🟢 Giải pháp phổ biến hiện nay:
📌 Ví dụ minh họa:
Một cụm 8 GPU như NVIDIA H100 cần kết nối với các switch leaf bằng 8 đường uplink 400G, với thiết kế full-mesh, nhằm đảm bảo dữ liệu truyền giữa các GPU không qua trung gian nhiều lần.
💽 Lưu trữ – Bộ não nhớ tạm thời của AI
Khi bạn huấn luyện một mô hình học sâu (deep learning), cần hàng terabyte, thậm chí petabyte dữ liệu được truy cập nhiều lần. Yêu cầu lưu trữ:
✅ InfiniBand + RDMA (Remote Direct Memory Access)
✅ Storage IP-based (trên nền Ethernet):
✅ SSD và NVMe drives:
✅ Distributed storage (lưu trữ phân tán):
🔍 Tổng kết cho kỹ sư hạ tầng AI:
🎓 Dành cho người học & kỹ sư IT chuyển sang AI Infrastructure:
Bạn muốn làm chủ các khái niệm như InfiniBand, RDMA, NVMe over Fabric, Fabric Switch, hãy bắt đầu từ cách AI sử dụng tài nguyên hạ tầng khác với web server truyền thống.
Trong hạ tầng AI truyền thống, không chỉ CPU hay GPU mới đóng vai trò then chốt. Để một mô hình AI huấn luyện được trơn tru, nhanh chóng và hiệu quả, hai yếu tố băng thông mạng và hạ tầng lưu trữ là “đòn bẩy” quyết định hiệu năng toàn hệ thống.
🌐 Băng thông mạng – Vấn đề sống còn khi AI cần “trao đổi chất”
Tốc độ truyền dữ liệu giữa các GPU, node hoặc cụm (cluster) trong quá trình training mô hình AI ảnh hưởng trực tiếp đến thời gian hoàn thành training – có thể rút ngắn từ vài tuần xuống vài giờ nếu hạ tầng đủ mạnh. Vì sao?
- Khi huấn luyện mô hình AI lớn (như GPT hay ResNet), dữ liệu liên tục được truyền qua lại giữa các GPU để đồng bộ trọng số (weights), batch dữ liệu, hoặc cập nhật gradient.
- Nếu băng thông hẹp hoặc latency cao, GPU phải “ngồi chờ”, dẫn tới hiệu suất sụt giảm, mô hình training lâu hơn, tốn chi phí hơn, thậm chí thất bại.
- Trung tâm dữ liệu thông thường (data center): thường sử dụng tỉ lệ over-subscription 20:1, tức là nhiều thiết bị dùng chung băng thông hơn năng lực thật sự của mạng.
- AI hạ tầng yêu cầu cao hơn rất nhiều: cần tỉ lệ 1:1 hoặc 4:1 để đảm bảo các GPU luôn được truyền dữ liệu liên tục, không bị “đói dữ liệu”.
🟢 Giải pháp phổ biến hiện nay:
- 400G/800G optical link để kết nối giữa server ↔ switch ↔ storage.
- Sử dụng các switch AI chuyên dụng để xây dựng fabrics không chặn (non-blocking).
📌 Ví dụ minh họa:
Một cụm 8 GPU như NVIDIA H100 cần kết nối với các switch leaf bằng 8 đường uplink 400G, với thiết kế full-mesh, nhằm đảm bảo dữ liệu truyền giữa các GPU không qua trung gian nhiều lần.
💽 Lưu trữ – Bộ não nhớ tạm thời của AI
Khi bạn huấn luyện một mô hình học sâu (deep learning), cần hàng terabyte, thậm chí petabyte dữ liệu được truy cập nhiều lần. Yêu cầu lưu trữ:
- Thông lượng cao (high throughput): để GPU không bị chờ đợi khi đọc dữ liệu.
- Độ trễ thấp (low latency): phản hồi nhanh khi AI model gọi dữ liệu.
- Scalability: mở rộng dễ dàng khi khối lượng dữ liệu ngày càng tăng.
✅ InfiniBand + RDMA (Remote Direct Memory Access)
- Cho phép node này truy cập trực tiếp bộ nhớ node khác bỏ qua CPU, giảm tải hệ thống.
- Phù hợp cho hạ tầng AI hyperscale – như các siêu cụm của Google, OpenAI, Meta...
✅ Storage IP-based (trên nền Ethernet):
- Dễ triển khai trong hệ thống truyền thống, chi phí rẻ hơn.
- Tuy nhiên, hiệu năng không bằng InfiniBand, dễ gây nghẽn khi scale lớn.
✅ SSD và NVMe drives:
- SSD nhanh hơn HDD nhiều lần, tránh “thắt cổ chai” khi AI đọc batch dữ liệu.
- NVMe thậm chí còn nhanh hơn SSD thường, dùng PCIe trực tiếp thay vì SATA.
✅ Distributed storage (lưu trữ phân tán):
- Chia nhỏ dữ liệu ra nhiều node lưu trữ, tăng độ chịu lỗi và khả năng mở rộng.
- Ví dụ: Ceph, Lustre, BeeGFS dùng nhiều trong HPC và AI training farm.
🔍 Tổng kết cho kỹ sư hạ tầng AI:
- Đừng để network bottleneck giết chết performance của AI model!
- Băng thông quang học 400G/800G và lưu trữ NVMe + RDMA là xương sống.
- Thiết kế 1:1 oversubscription là tiêu chuẩn mới trong AI infra, không thể dùng lại tư duy cũ từ data center truyền thống.
🎓 Dành cho người học & kỹ sư IT chuyển sang AI Infrastructure:
Bạn muốn làm chủ các khái niệm như InfiniBand, RDMA, NVMe over Fabric, Fabric Switch, hãy bắt đầu từ cách AI sử dụng tài nguyên hạ tầng khác với web server truyền thống.