AI Compute Portfolio: Toàn cảnh hạ tầng tính toán cho AI hiện đại
Bức hình trên mô tả cách Cisco xây dựng một AI Compute Portfolio theo hướng tiếp cận hợp nhất (Unified Approach), kết hợp đầy đủ các thành phần:
Mục tiêu là cung cấp các Validated Solutions – các kiến trúc đã được kiểm chứng, giúp doanh nghiệp triển khai AI nhanh hơn, giảm rủi ro và rút ngắn thời gian đưa AI vào sản xuất.
1. GPU Accelerated – Tăng tốc bằng GPU
Đây là nhóm hạ tầng dành cho các tác vụ AI đòi hỏi năng lực tính toán cực lớn.
Ví dụ:
Các hệ thống này thường sử dụng:
Đặc điểm:
Đây chính là "nhà máy sản xuất AI" nơi các mô hình nền tảng (Foundation Model) được huấn luyện.
2. GPU Optimized – Tối ưu cho GPU
Không phải doanh nghiệp nào cũng cần hàng nghìn GPU.
Nhiều tổ chức chỉ cần:
Nhóm GPU Optimized tập trung vào:
Ví dụ:
Một ngân hàng muốn xây dựng ChatGPT nội bộ bằng cách fine-tune Llama hoặc Mistral trên dữ liệu riêng sẽ phù hợp với kiến trúc này.
3. Unified Edge – AI tại biên (Edge AI)
Không phải mọi dữ liệu đều được gửi về Data Center hoặc Cloud.
Nhiều bài toán yêu cầu AI chạy ngay tại nơi dữ liệu được sinh ra:
Ví dụ:
Camera giám sát phát hiện xâm nhập.
Nếu gửi video về Cloud để phân tích:
Camera → Internet → Cloud → AI → Kết quả
Latency có thể lên đến hàng trăm mili giây.
Trong khi đó Edge AI:
Camera → Edge Server → AI → Kết quả
có thể phản hồi chỉ trong vài mili giây.
Đây là lý do Unified Edge ngày càng quan trọng trong các ứng dụng thời gian thực.
4. AI POD – Giải pháp AI tích hợp hoàn chỉnh
AI POD là một hệ thống đã được tích hợp sẵn: Compute
Thay vì phải tự thiết kế từng thành phần, doanh nghiệp có thể triển khai AI POD như một "AI Data Center đóng gói sẵn".
Lợi ích:
Chuỗi giá trị AI hoàn chỉnh
Phần cuối của hình mô tả toàn bộ vòng đời AI: Build the Model | Training
Đây là giai đoạn cần năng lực tính toán lớn nhất.
Optimize the Model | Fine-tuning and RAG
Sau khi có mô hình nền tảng:
Giai đoạn này giúp AI hiểu dữ liệu đặc thù của doanh nghiệp.
Use the Model | Inferencing
Đây là giai đoạn người dùng thực sự sử dụng AI:
Khối lượng truy vấn (Inference) thường lớn hơn rất nhiều so với Training.
Do đó hạ tầng cần:
Góc nhìn của kỹ sư hạ tầng AI
Bức hình này cũng cho thấy một thực tế quan trọng:
Một hệ thống AI thành công luôn là sự kết hợp của:
Compute + Network + Storage + Software
Thiếu một trong bốn thành phần trên, hiệu năng toàn hệ thống sẽ bị giới hạn.
Ví dụ:
Trong kỷ nguyên Agentic AI, hạ tầng AI đang chuyển từ việc bán từng máy chủ GPU riêng lẻ sang cung cấp một nền tảng AI hoàn chỉnh (AI Platform), nơi Compute, Network, Storage và Software được thiết kế như một hệ sinh thái thống nhất để phục vụ toàn bộ vòng đời của AI: Training → Fine-tuning/RAG → Inferencing.
Bức hình trên mô tả cách Cisco xây dựng một AI Compute Portfolio theo hướng tiếp cận hợp nhất (Unified Approach), kết hợp đầy đủ các thành phần:
- Compute (Máy chủ và GPU)
- Network (Mạng tốc độ cao)
- Storage (Lưu trữ hiệu năng cao)
- Software (Phần mềm và nền tảng AI)
Mục tiêu là cung cấp các Validated Solutions – các kiến trúc đã được kiểm chứng, giúp doanh nghiệp triển khai AI nhanh hơn, giảm rủi ro và rút ngắn thời gian đưa AI vào sản xuất.
1. GPU Accelerated – Tăng tốc bằng GPU
Đây là nhóm hạ tầng dành cho các tác vụ AI đòi hỏi năng lực tính toán cực lớn.
Ví dụ:
- Training LLM
- Computer Vision
- Generative AI
- Deep Learning
- Multi-modal AI
Các hệ thống này thường sử dụng:
- NVIDIA H100/H200/B200
- Cisco UCS X-Series
- GPU Server mật độ cao
- Mạng Ethernet 100G/400G
Đặc điểm:
- Hàng chục đến hàng trăm GPU
- Khả năng Scale-Out
- Throughput cực lớn
- Yêu cầu latency thấp
Đây chính là "nhà máy sản xuất AI" nơi các mô hình nền tảng (Foundation Model) được huấn luyện.
2. GPU Optimized – Tối ưu cho GPU
Không phải doanh nghiệp nào cũng cần hàng nghìn GPU.
Nhiều tổ chức chỉ cần:
- Fine-tuning LLM
- RAG (Retrieval-Augmented Generation)
- Domain-specific AI
- AI cho doanh nghiệp
Nhóm GPU Optimized tập trung vào:
- Chi phí hợp lý
- Mở rộng linh hoạt
- Tận dụng GPU hiệu quả
Ví dụ:
Một ngân hàng muốn xây dựng ChatGPT nội bộ bằng cách fine-tune Llama hoặc Mistral trên dữ liệu riêng sẽ phù hợp với kiến trúc này.
3. Unified Edge – AI tại biên (Edge AI)
Không phải mọi dữ liệu đều được gửi về Data Center hoặc Cloud.
Nhiều bài toán yêu cầu AI chạy ngay tại nơi dữ liệu được sinh ra:
- Nhà máy thông minh
- Camera AI
- Hệ thống giao thông
- Retail
- Y tế
- IoT
Ví dụ:
Camera giám sát phát hiện xâm nhập.
Nếu gửi video về Cloud để phân tích:
Camera → Internet → Cloud → AI → Kết quả
Latency có thể lên đến hàng trăm mili giây.
Trong khi đó Edge AI:
Camera → Edge Server → AI → Kết quả
có thể phản hồi chỉ trong vài mili giây.
Đây là lý do Unified Edge ngày càng quan trọng trong các ứng dụng thời gian thực.
4. AI POD – Giải pháp AI tích hợp hoàn chỉnh
AI POD là một hệ thống đã được tích hợp sẵn: Compute
- Cisco UCS
- NVIDIA GPU
- Cisco Nexus
- Cisco Silicon One
- Ethernet 100G/400G/800G
- VAST Data
- NetApp
- Pure Storage
- NVIDIA AI Enterprise
- Red Hat OpenShift
- Kubernetes
- RAG Framework
Thay vì phải tự thiết kế từng thành phần, doanh nghiệp có thể triển khai AI POD như một "AI Data Center đóng gói sẵn".
Lợi ích:
- Triển khai nhanh
- Giảm rủi ro
- Đã được kiểm chứng hiệu năng
- Dễ mở rộng
- Hỗ trợ vận hành và bảo mật tốt hơn
Chuỗi giá trị AI hoàn chỉnh
Phần cuối của hình mô tả toàn bộ vòng đời AI: Build the Model | Training
- Thu thập dữ liệu
- Tiền xử lý dữ liệu
- Huấn luyện Foundation Model
- Distributed Training
- All-Reduce
- GPU Cluster
Đây là giai đoạn cần năng lực tính toán lớn nhất.
Optimize the Model | Fine-tuning and RAG
Sau khi có mô hình nền tảng:
- Fine-tuning
- LoRA
- PEFT
- Vector Database
- Embedding
- RAG Pipeline
Giai đoạn này giúp AI hiểu dữ liệu đặc thù của doanh nghiệp.
Use the Model | Inferencing
Đây là giai đoạn người dùng thực sự sử dụng AI:
- Chatbot
- Agentic AI
- Copilot
- Search Assistant
- AI Automation
Khối lượng truy vấn (Inference) thường lớn hơn rất nhiều so với Training.
Do đó hạ tầng cần:
- Scale-Out
- Low Latency
- GPU Sharing
- Efficient Networking
- High Availability
Góc nhìn của kỹ sư hạ tầng AI
Bức hình này cũng cho thấy một thực tế quan trọng:
AI không chỉ là GPU.
Một hệ thống AI thành công luôn là sự kết hợp của:
Compute + Network + Storage + Software
Thiếu một trong bốn thành phần trên, hiệu năng toàn hệ thống sẽ bị giới hạn.
Ví dụ:
- GPU mạnh nhưng Storage chậm → GPU Idle.
- GPU mạnh nhưng mạng có Tail Latency cao → Training kéo dài.
- GPU mạnh nhưng thiếu Kubernetes và OpenShift → khó vận hành.
- GPU mạnh nhưng thiếu RAG Pipeline → AI không khai thác được dữ liệu doanh nghiệp.
Trong kỷ nguyên Agentic AI, hạ tầng AI đang chuyển từ việc bán từng máy chủ GPU riêng lẻ sang cung cấp một nền tảng AI hoàn chỉnh (AI Platform), nơi Compute, Network, Storage và Software được thiết kế như một hệ sinh thái thống nhất để phục vụ toàn bộ vòng đời của AI: Training → Fine-tuning/RAG → Inferencing.