🔍 GPU Slicing với MIG – “Chia nhỏ” GPU cho nhiều tác vụ AI cùng lúc
Nếu bạn đang triển khai mô hình AI mà ngân sách không cho phép mỗi người dùng một GPU A100 80GB – đừng lo. NVIDIA đã có giải pháp: Multi-Instance GPU (MIG) – một tính năng "chia nhỏ" GPU vật lý thành nhiều GPU ảo nhỏ hơn, mỗi cái có thể dùng riêng cho một workload khác nhau như training, inference hay Jupyter Notebook. 💡 MIG là gì?
MIG (Multi-Instance GPU) cho phép chia một GPU vật lý (như NVIDIA A100 80GB) thành tối đa 7 GPU ảo, mỗi GPU ảo (gọi là GPU instance) có bộ nhớ riêng, tài nguyên tính toán riêng, và được cách ly hoàn toàn – giống như bạn có 7 GPU độc lập vậy.
Ví dụ: bạn có thể chia một GPU A100 thành:
Các cấu hình MIG tiêu chuẩn:
Giả sử bạn đang vận hành một nhóm AI gồm các nhà khoa học dữ liệu:
Bạn không cần mua 3 GPU riêng. Với MIG, bạn cấu hình 3 instance:
=> Tất cả chạy đồng thời trên cùng một GPU vật lý, nhưng được cách ly tài nguyên. 🔧 Các môi trường hỗ trợ MIG
📌 Tổng kết
MIG là công nghệ cực kỳ hiệu quả để chia sẻ GPU cho nhiều tác vụ AI mà không hy sinh hiệu suất hay bảo mật. Với một GPU A100 hoặc H100, bạn có thể phục vụ cả một nhóm nghiên cứu AI mà không cần đầu tư thêm phần cứng.
Bạn đang xây dựng hạ tầng AI tại doanh nghiệp? Hãy cân nhắc triển khai GPU Slicing để tối ưu tài nguyên – vừa tiết kiệm chi phí, vừa đảm bảo hiệu năng.

Nếu bạn đang triển khai mô hình AI mà ngân sách không cho phép mỗi người dùng một GPU A100 80GB – đừng lo. NVIDIA đã có giải pháp: Multi-Instance GPU (MIG) – một tính năng "chia nhỏ" GPU vật lý thành nhiều GPU ảo nhỏ hơn, mỗi cái có thể dùng riêng cho một workload khác nhau như training, inference hay Jupyter Notebook. 💡 MIG là gì?
MIG (Multi-Instance GPU) cho phép chia một GPU vật lý (như NVIDIA A100 80GB) thành tối đa 7 GPU ảo, mỗi GPU ảo (gọi là GPU instance) có bộ nhớ riêng, tài nguyên tính toán riêng, và được cách ly hoàn toàn – giống như bạn có 7 GPU độc lập vậy.
Ví dụ: bạn có thể chia một GPU A100 thành:
- 1 instance lớn 7g.80gb (chiếm toàn bộ tài nguyên)
- hoặc 7 instance nhỏ 1g.10gb (cho các tác vụ inference nhẹ)
- hoặc bất kỳ tổ hợp hỗn hợp nào, như 3g.40gb + 2g.20gb + 1g.10gb...
Các cấu hình MIG tiêu chuẩn:
- MIG 7g.80gb: Dùng toàn bộ GPU (81920MB RAM, 7/7 SM), chỉ tạo 1 instance, chia thành 7 compute instances
- MIG 4g.40gb: 40960MB, chiếm 4/7 SM, chia được 4 compute instances
- MIG 1g.10gb: 10240MB, chiếm 1/7 SM, tạo tối đa 7 instance cùng lúc, mỗi cái cho 1 workload nhỏ
💡 SM (Streaming Multiprocessor): là đơn vị xử lý chính trong GPU, tương tự như core trong CPU.
🧪 Ứng dụng thực tếGiả sử bạn đang vận hành một nhóm AI gồm các nhà khoa học dữ liệu:
- Một người cần Jupyter Notebook để phân tích dữ liệu
- Một người chạy Inference mô hình NLP
- Một người fine-tune mô hình LLM cỡ nhỏ
Bạn không cần mua 3 GPU riêng. Với MIG, bạn cấu hình 3 instance:
- 1g.10gb cho Jupyter
- 2g.20gb cho inference
- 4g.40gb cho fine-tuning
=> Tất cả chạy đồng thời trên cùng một GPU vật lý, nhưng được cách ly tài nguyên. 🔧 Các môi trường hỗ trợ MIG
- GPU Ampere trở lên: A100, H100
- Chạy được trên nhiều môi trường: Bare-metal, VM (qua GPU pass-through), hoặc dùng vGPU
📌 Tổng kết
MIG là công nghệ cực kỳ hiệu quả để chia sẻ GPU cho nhiều tác vụ AI mà không hy sinh hiệu suất hay bảo mật. Với một GPU A100 hoặc H100, bạn có thể phục vụ cả một nhóm nghiên cứu AI mà không cần đầu tư thêm phần cứng.
Bạn đang xây dựng hạ tầng AI tại doanh nghiệp? Hãy cân nhắc triển khai GPU Slicing để tối ưu tài nguyên – vừa tiết kiệm chi phí, vừa đảm bảo hiệu năng.