🚀 Hoạt động 1: Bắt đầu Nhỏ – Triển khai Mistral 7B trên Hạ tầng GPU
Nhóm của bạn quyết định khởi động dự án AI với Mô hình Ngôn ngữ Lớn (LLM) Mistral 7B.
Để đảm bảo sức mạnh tính toán cho cả hiện tại và tương lai, nhóm đã chọn NVIDIA L40S – GPU với 48 GB bộ nhớ. Dung lượng này dư sức đáp ứng cả Inference, Retrieval-Augmented Generation (RAG) và Fine-tuning. GPU này được gắn trên máy chủ Rack Cisco UCS C240 M7.
🔌 Bài toán kết nối mạng – Bước 1
Ban đầu, bạn dự định kết nối máy chủ GPU vào hạ tầng HPC. Nhưng nhóm HPC không cho phép kết nối trực tiếp.
Câu hỏi: Trong các tùy chọn kết nối có sẵn, lựa chọn nào hợp lý nhất?
✅ Kết nối máy chủ với các cổng Catalyst 10G
❌ Catalyst 1G – Quá yếu, nghẽn băng thông ngay.
❌ Router văn phòng – Không dành cho lưu lượng AI nặng.
❌ Switch HPC – Không được phép kết nối.
⚡ Phát hiện vấn đề hiệu suất
Khi chạy LLM, bạn nhận thấy:
Nguyên nhân: NVIDIA L40S cần NIC 2x25Gbps để đạt hiệu suất tối ưu, trong khi bạn chỉ dùng 2x10Gbps → nghẽn băng thông I/O.
Tin tốt là Cisco VIC 15427 trên C240 M7 hỗ trợ 4 cổng 10/25/50Gbps.
Vấn đề là rack hiện tại chỉ có switch Catalyst 10G, nhưng ở phòng kế bên (20m) có rack với switch Catalyst hỗ trợ 25Gbps.
🌐 Giải pháp kết nối – Bước 2
Câu hỏi: Bạn sẽ chọn kết nối nào cho 2x25Gbps giữa VIC và switch Catalyst 25G ở rack lân cận?
✅ Cáp quang 25Gbps + SFP-25G-SR – Tối ưu cho khoảng cách 20m, chuẩn SR (Short Range) qua sợi multimode.
❌ Cáp Ethernet 10Gbps – Không đủ băng thông.
❌ DAC 25Gbps – Chỉ phù hợp khoảng cách rất ngắn (<5m).
❌ SFP-25G-ER – Dành cho khoảng cách xa (lên tới 40km), quá tốn kém và không cần thiết.
💡 Kinh nghiệm rút ra: Khi triển khai hạ tầng GPU cho AI, băng thông mạng quan trọng không kém sức mạnh GPU. Nếu GPU mạnh mà kết nối nghẽn, hiệu suất thực tế sẽ giảm mạnh.
Nhóm của bạn quyết định khởi động dự án AI với Mô hình Ngôn ngữ Lớn (LLM) Mistral 7B.
- Yêu cầu cơ bản: ~16 GB GPU RAM cho các tác vụ inference thông thường.
- Hiệu suất cao hơn: ≥32 GB GPU RAM nếu huấn luyện (training) hoặc tinh chỉnh (fine-tuning).
Để đảm bảo sức mạnh tính toán cho cả hiện tại và tương lai, nhóm đã chọn NVIDIA L40S – GPU với 48 GB bộ nhớ. Dung lượng này dư sức đáp ứng cả Inference, Retrieval-Augmented Generation (RAG) và Fine-tuning. GPU này được gắn trên máy chủ Rack Cisco UCS C240 M7.
🔌 Bài toán kết nối mạng – Bước 1
Ban đầu, bạn dự định kết nối máy chủ GPU vào hạ tầng HPC. Nhưng nhóm HPC không cho phép kết nối trực tiếp.
Câu hỏi: Trong các tùy chọn kết nối có sẵn, lựa chọn nào hợp lý nhất?
✅ Kết nối máy chủ với các cổng Catalyst 10G
❌ Catalyst 1G – Quá yếu, nghẽn băng thông ngay.
❌ Router văn phòng – Không dành cho lưu lượng AI nặng.
❌ Switch HPC – Không được phép kết nối.
⚡ Phát hiện vấn đề hiệu suất
Khi chạy LLM, bạn nhận thấy:
- Thời gian xử lý dài
- GPU chưa được sử dụng hết
Nguyên nhân: NVIDIA L40S cần NIC 2x25Gbps để đạt hiệu suất tối ưu, trong khi bạn chỉ dùng 2x10Gbps → nghẽn băng thông I/O.
Tin tốt là Cisco VIC 15427 trên C240 M7 hỗ trợ 4 cổng 10/25/50Gbps.
Vấn đề là rack hiện tại chỉ có switch Catalyst 10G, nhưng ở phòng kế bên (20m) có rack với switch Catalyst hỗ trợ 25Gbps.
🌐 Giải pháp kết nối – Bước 2
Câu hỏi: Bạn sẽ chọn kết nối nào cho 2x25Gbps giữa VIC và switch Catalyst 25G ở rack lân cận?
✅ Cáp quang 25Gbps + SFP-25G-SR – Tối ưu cho khoảng cách 20m, chuẩn SR (Short Range) qua sợi multimode.
❌ Cáp Ethernet 10Gbps – Không đủ băng thông.
❌ DAC 25Gbps – Chỉ phù hợp khoảng cách rất ngắn (<5m).
❌ SFP-25G-ER – Dành cho khoảng cách xa (lên tới 40km), quá tốn kém và không cần thiết.
💡 Kinh nghiệm rút ra: Khi triển khai hạ tầng GPU cho AI, băng thông mạng quan trọng không kém sức mạnh GPU. Nếu GPU mạnh mà kết nối nghẽn, hiệu suất thực tế sẽ giảm mạnh.