Storage Network trong hạ tầng AI: Nên dùng mạng riêng hay dùng chung?
Khi nói đến hạ tầng AI hiện đại, nhiều người thường tập trung vào GPU, CPU hay các mô hình LLM. Tuy nhiên, một thành phần rất quan trọng nhưng thường bị đánh giá thấp chính là mạng lưu trữ Storage Network – mạng kết nối các cụm GPU với hệ thống lưu trữ dữ liệu.
Trong các hệ thống AI Training và AI Inference quy mô lớn, dữ liệu huấn luyện thường nằm trong các hệ thống lưu trữ dùng chung (Shared Storage) như NAS, Parallel File System hoặc Distributed Storage. Nhiệm vụ của Storage Network là vận chuyển dữ liệu từ Storage đến GPU với tốc độ đủ nhanh để GPU luôn có việc để làm.
Nếu storage không theo kịp tốc độ xử lý của GPU, kết quả là những GPU trị giá hàng chục nghìn USD sẽ phải ngồi chờ dữ liệu, làm giảm đáng kể hiệu quả đầu tư. (GPU nhanh mà bị đói dữ liệu).
Dedicated Storage Network hay Shared Storage Network?
Có hai cách triển khai phổ biến.
Dedicated Storage Network
Đây là mô hình được khuyến nghị trong các hệ thống AI quy mô lớn. Storage traffic được tách biệt hoàn toàn khỏi lưu lượng mạng thông thường như User traffic, Management traffic, VM traffic, Application traffic. Lợi ích của cách này là:
Shared Storage Network
Trong mô hình này, storage traffic và application traffic cùng chia sẻ một hạ tầng Ethernet. Ưu điểm lớn nhất là chi phí thấp hơn; Ít switch và NIC hơn; Triển khai đơn giản hơn. Tuy nhiên khi hệ thống AI phát triển, việc chia sẻ tài nguyên mạng có thể dẫn tới nghẽn (congestion), mất gói Packet loss, Tăng latency, GPU starvation (GPU chờ dữ liệu). Do đó mô hình này thường chỉ phù hợp với các cụm AI nhỏ hoặc môi trường PoC.
Storage quan trọng như thế nào đối với AI?
Một GPU H100 hoặc B200 có khả năng xử lý dữ liệu với tốc độ cực lớn. Nếu dữ liệu từ storage không được cấp phát đủ nhanh GPU utilization giảm, thời gian training kéo dài, chi phí vận hành tăng, ROI của hệ thống AI giảm mạnh. Đó là lý do các hệ thống AI hiện đại thường yêu cầu ổ SSD, NVMe, NVMe-over-Fabrics, Parallel File System thay vì HDD truyền thống.
Vì sao AI rất thích NVMe?
AI workload thường tạo ra nhiều thao tác đọc dữ liệu song song, nhiều truy cập ngẫu nhiên (Random I/O). Các file của AI có kích thước nhỏ đến trung bình, checkpoint liên tục trong quá trình training. NVMe được thiết kế để xử lý số lượng IOPS rất lớn với độ trễ thấp, phù hợp hơn nhiều so với SAS hoặc SATA SSD truyền thống.
RDMA cho Storage
Nếu hệ thống lưu trữ hỗ trợ RDMA thì lưu lượng storage có thể sử dụng RoCEv2, RDMA NIC, Lossless Ethernet tương tự như mạng Back-end giữa các GPU thi lúc này dữ liệu có thể được truyền trực tiếp từ bộ nhớ của Storage Server đến bộ nhớ GPU hoặc máy chủ mà không cần CPU xử lý nhiều lần. Kết quả là giảm latency, giảm CPU overhead, tăng throughput, tăng hiệu quả huấn luyện AI.
Một sai lầm phổ biến khi xây dựng AI Cluster
Nhiều tổ chức đầu tư hàng triệu USD cho GPU nhưng lại giữ nguyên hệ thống storage cũ. Kết quả GPU đạt utilization chỉ 40–60%, thời gian training kéo dài hơn dự kiến, không khai thác hết giá trị của hạ tầng AI. Trong thực tế, một AI Cluster mạnh không chỉ cần GPU mạnh mà còn cần phần tính toán Compute mạnh, Network mạnh và phần Storage mạnh. Ba thành phần này phải được thiết kế đồng bộ.
Bài học quan trọng: Trong AI Infrastructure, GPU thường là thành phần đắt tiền nhất, nhưng Storage Network lại là thành phần quyết định liệu GPU có thực sự hoạt động hết công suất hay không. Một hệ thống lưu trữ chậm có thể biến cả cụm GPU trị giá hàng triệu USD thành những bộ xử lý đang... ngồi chờ dữ liệu.
Khi nói đến hạ tầng AI hiện đại, nhiều người thường tập trung vào GPU, CPU hay các mô hình LLM. Tuy nhiên, một thành phần rất quan trọng nhưng thường bị đánh giá thấp chính là mạng lưu trữ Storage Network – mạng kết nối các cụm GPU với hệ thống lưu trữ dữ liệu.
Trong các hệ thống AI Training và AI Inference quy mô lớn, dữ liệu huấn luyện thường nằm trong các hệ thống lưu trữ dùng chung (Shared Storage) như NAS, Parallel File System hoặc Distributed Storage. Nhiệm vụ của Storage Network là vận chuyển dữ liệu từ Storage đến GPU với tốc độ đủ nhanh để GPU luôn có việc để làm.
Nếu storage không theo kịp tốc độ xử lý của GPU, kết quả là những GPU trị giá hàng chục nghìn USD sẽ phải ngồi chờ dữ liệu, làm giảm đáng kể hiệu quả đầu tư. (GPU nhanh mà bị đói dữ liệu).
Dedicated Storage Network hay Shared Storage Network?
Có hai cách triển khai phổ biến.
Dedicated Storage Network
Đây là mô hình được khuyến nghị trong các hệ thống AI quy mô lớn. Storage traffic được tách biệt hoàn toàn khỏi lưu lượng mạng thông thường như User traffic, Management traffic, VM traffic, Application traffic. Lợi ích của cách này là:
- Không xảy ra tranh chấp băng thông giữa lưu lượng storage và lưu lượng ứng dụng.
- Dễ phát hiện và xử lý hiện tượng congestion.
- Dễ quản lý thay đổi cấu hình.
- Đảm bảo hiệu năng ổn định cho các tác vụ AI Training.
Shared Storage Network
Trong mô hình này, storage traffic và application traffic cùng chia sẻ một hạ tầng Ethernet. Ưu điểm lớn nhất là chi phí thấp hơn; Ít switch và NIC hơn; Triển khai đơn giản hơn. Tuy nhiên khi hệ thống AI phát triển, việc chia sẻ tài nguyên mạng có thể dẫn tới nghẽn (congestion), mất gói Packet loss, Tăng latency, GPU starvation (GPU chờ dữ liệu). Do đó mô hình này thường chỉ phù hợp với các cụm AI nhỏ hoặc môi trường PoC.
Storage quan trọng như thế nào đối với AI?
Một GPU H100 hoặc B200 có khả năng xử lý dữ liệu với tốc độ cực lớn. Nếu dữ liệu từ storage không được cấp phát đủ nhanh GPU utilization giảm, thời gian training kéo dài, chi phí vận hành tăng, ROI của hệ thống AI giảm mạnh. Đó là lý do các hệ thống AI hiện đại thường yêu cầu ổ SSD, NVMe, NVMe-over-Fabrics, Parallel File System thay vì HDD truyền thống.
Vì sao AI rất thích NVMe?
AI workload thường tạo ra nhiều thao tác đọc dữ liệu song song, nhiều truy cập ngẫu nhiên (Random I/O). Các file của AI có kích thước nhỏ đến trung bình, checkpoint liên tục trong quá trình training. NVMe được thiết kế để xử lý số lượng IOPS rất lớn với độ trễ thấp, phù hợp hơn nhiều so với SAS hoặc SATA SSD truyền thống.
RDMA cho Storage
Nếu hệ thống lưu trữ hỗ trợ RDMA thì lưu lượng storage có thể sử dụng RoCEv2, RDMA NIC, Lossless Ethernet tương tự như mạng Back-end giữa các GPU thi lúc này dữ liệu có thể được truyền trực tiếp từ bộ nhớ của Storage Server đến bộ nhớ GPU hoặc máy chủ mà không cần CPU xử lý nhiều lần. Kết quả là giảm latency, giảm CPU overhead, tăng throughput, tăng hiệu quả huấn luyện AI.
Một sai lầm phổ biến khi xây dựng AI Cluster
Nhiều tổ chức đầu tư hàng triệu USD cho GPU nhưng lại giữ nguyên hệ thống storage cũ. Kết quả GPU đạt utilization chỉ 40–60%, thời gian training kéo dài hơn dự kiến, không khai thác hết giá trị của hạ tầng AI. Trong thực tế, một AI Cluster mạnh không chỉ cần GPU mạnh mà còn cần phần tính toán Compute mạnh, Network mạnh và phần Storage mạnh. Ba thành phần này phải được thiết kế đồng bộ.
Bài học quan trọng: Trong AI Infrastructure, GPU thường là thành phần đắt tiền nhất, nhưng Storage Network lại là thành phần quyết định liệu GPU có thực sự hoạt động hết công suất hay không. Một hệ thống lưu trữ chậm có thể biến cả cụm GPU trị giá hàng triệu USD thành những bộ xử lý đang... ngồi chờ dữ liệu.