- Xây dựng cụm gồm 260 GPU, dùng cho các mô hình nhỏ
➤ Cụm này triển khai trên các máy chủ độc lập (ví dụ: Cisco UCS-C240-M7)
➤ Đây là dòng server 2U chuyên cho workload AI, hỗ trợ nhiều GPU và ổ đĩa tốc độ cao. - Mạng non-blocking giữa các GPU
➤ Không bị tắc nghẽn khi nhiều GPU giao tiếp song song
➤ Dùng topology như fat-tree hoặc spine-leaf để đảm bảo thông lượng đồng đều. - Độ trễ thấp, ổn định để huấn luyện hiệu quả
➤ Rất quan trọng khi các GPU phải đồng bộ gradient liên tục trong quá trình huấn luyện deep learning (dùng AllReduce, NCCL v.v.) - Kết nối host bằng 2 đường 100Gbps
➤ Dual port giúp redundancy và tăng băng thông tổng (200Gbps mỗi node) - Hạ tầng fabric đạt 400Gbps để cân bằng tải
➤ Đảm bảo luồng dữ liệu giữa các máy chủ và GPU luôn thông suốt, không nghẽn cổ chai.
🛠 Ví dụ dễ hiểu:
Hãy tưởng tượng bạn có 260 GPU giống như 260 đầu bếp đang cùng nấu ăn cho một bữa tiệc lớn. Nếu họ không thể giao tiếp mượt mà (trao đổi nguyên liệu, công thức), thì cả quá trình sẽ bị chậm lại. Mạng non-blocking giống như một hệ thống vận chuyển siêu tốc cho các đầu bếp, còn 400Gbps fabric chính là đại lộ 8 làn giúp hàng hoá lưu thông trơn tru.
💡 Lưu ý cho người học AI / IT:
Đây là mô hình nhỏ nhưng vẫn yêu cầu một hạ tầng cao cấp. Khi học về AI không chỉ là model và code, mà còn cần hiểu hạ tầng mạng, tính toán và lưu trữ phía sau để model chạy hiệu quả. Nếu bạn làm IT, đây là cơ hội tốt để chuyển sang mảng AI Infrastructure!
Bạn có muốn mình minh họa sơ đồ kiến trúc của cụm này để dễ hình dung hơn không?