AI Stack (ngăn xếp AI) hoàn chỉnh của Cisco, được thiết kế để triển khai các hệ thống AI từ giai đoạn huấn luyện (Training), tối ưu (Optimization) đến suy luận (Inferencing). Điểm đáng chú ý là Cisco không chỉ bán switch hay server riêng lẻ mà xây dựng một hệ sinh thái AI Data Center hoàn chỉnh, bao gồm compute, network, storage, automation, security và vận hành.
1. Tầng High-Performance Networking – Mạng hiệu năng cao
Đây là nền tảng ở lớp dưới cùng, sử dụng Cisco Nexus để xây dựng mạng AI Fabric tốc độ cao. Trong các cụm AI hiện đại, GPU không hoạt động độc lập mà phải trao đổi dữ liệu liên tục với nhau. Vì vậy, mạng AI cần:
Có thể hình dung Nexus trong AI Cluster giống như "hệ thần kinh" kết nối hàng trăm hoặc hàng nghìn GPU lại với nhau.
2. Tầng Accelerated Compute – Hạ tầng tính toán tăng tốc
Phía trên là Cisco UCS (Unified Computing System).
Đây là nơi đặt:
Nhiệm vụ của tầng này là cung cấp sức mạnh tính toán cho:
Ví dụ tại VnPro, một server UCS C240 M7 gắn 2 GPU L40S có thể dùng để triển khai RAG và Fine-tuning cho các mô hình ngôn ngữ nhỏ và vừa.
3. Tầng Kubernetes – Điều phối AI Workload
Các workload AI hiện nay hiếm khi chạy trực tiếp trên server vật lý.
Chúng thường chạy trên:
Kubernetes giúp:
Nếu Nexus là hệ thần kinh và UCS là cơ bắp, thì Kubernetes chính là "bộ não điều phối", quyết định workload nào chạy ở GPU nào.
4. Tầng Automation – Tự động hóa
Cisco tích hợp nhiều công cụ tự động hóa như:
Vai trò của tầng này:
Đây là yếu tố cực kỳ quan trọng vì các AI Cluster có thể lên tới hàng trăm node. Cấu hình thủ công gần như không khả thi.
5. Tầng AI Software – Phần mềm AI
Đây là nơi chạy các framework AI:
Các thành phần này chịu trách nhiệm:
Có thể xem đây là "trái tim" của toàn bộ hệ thống AI.
6. Tầng Operations – Vận hành và giám sát
Cisco cung cấp:
Các công cụ này giúp:
AI Cluster có giá trị hàng triệu USD nên khả năng observability là yêu cầu bắt buộc.
7. Storage Ecosystem – Hệ sinh thái lưu trữ
AI cần lưu trữ khối lượng dữ liệu khổng lồ:
Cisco hỗ trợ tích hợp với:
Trong thực tế, nhiều LLM có thể cần hàng chục hoặc hàng trăm TB dữ liệu huấn luyện.
8. Security – Bảo mật cho AI
Cisco bổ sung:
Mục tiêu:
Khi AI trở thành hạ tầng trọng yếu, bảo mật AI sẽ quan trọng không kém bảo mật mạng.
9. Observability – Quan sát toàn bộ hệ thống
Cisco tích hợp:
Cho phép theo dõi:
Application → Container → GPU → Server → Network → Storage
Điều này giúp xác định nhanh nguyên nhân gây ra:
Nhìn tổng thể AI Stack của Cisco
Có thể hình dung AI Stack như sau:
Nexus Fabric → UCS Compute → Kubernetes → AI Software → Automation → Operations → Security → Storage → Observability
Đây chính là kiến trúc của một AI Data Center hiện đại, nơi mạng không còn chỉ là kết nối đơn thuần mà đã trở thành nền tảng quyết định hiệu năng của toàn bộ hệ thống AI. Trong kỷ nguyên Agentic AI, doanh nghiệp muốn triển khai AI ở quy mô lớn sẽ cần nhìn AI theo góc độ của cả một "stack" hoàn chỉnh thay vì chỉ tập trung vào GPU hay mô hình ngôn ngữ (LLM).
1. Tầng High-Performance Networking – Mạng hiệu năng cao
Đây là nền tảng ở lớp dưới cùng, sử dụng Cisco Nexus để xây dựng mạng AI Fabric tốc độ cao. Trong các cụm AI hiện đại, GPU không hoạt động độc lập mà phải trao đổi dữ liệu liên tục với nhau. Vì vậy, mạng AI cần:
- Băng thông 400G/800G Ethernet
- Độ trễ cực thấp (Low Latency)
- Lossless Ethernet với PFC, ECN
- Hỗ trợ RoCEv2 cho GPU communication
Có thể hình dung Nexus trong AI Cluster giống như "hệ thần kinh" kết nối hàng trăm hoặc hàng nghìn GPU lại với nhau.
2. Tầng Accelerated Compute – Hạ tầng tính toán tăng tốc
Phía trên là Cisco UCS (Unified Computing System).
Đây là nơi đặt:
- CPU
- GPU NVIDIA H100, H200, B200, L40S…
- Bộ nhớ RAM dung lượng lớn
- PCIe Gen5, NVLink
Nhiệm vụ của tầng này là cung cấp sức mạnh tính toán cho:
- Training LLM
- Fine-tuning
- RAG
- AI Agent
- Inference
Ví dụ tại VnPro, một server UCS C240 M7 gắn 2 GPU L40S có thể dùng để triển khai RAG và Fine-tuning cho các mô hình ngôn ngữ nhỏ và vừa.
3. Tầng Kubernetes – Điều phối AI Workload
Các workload AI hiện nay hiếm khi chạy trực tiếp trên server vật lý.
Chúng thường chạy trên:
- Red Hat OpenShift
- Ubuntu
- Rancher
Kubernetes giúp:
- Triển khai container AI
- Scale cụm GPU
- Tự động phục hồi
- Quản lý tài nguyên GPU
- Multi-tenancy
Nếu Nexus là hệ thần kinh và UCS là cơ bắp, thì Kubernetes chính là "bộ não điều phối", quyết định workload nào chạy ở GPU nào.
4. Tầng Automation – Tự động hóa
Cisco tích hợp nhiều công cụ tự động hóa như:
- Ansible
- Terraform
- API/DevOps Toolchain
Vai trò của tầng này:
- Provision server tự động
- Cấu hình mạng AI Fabric
- Tự động triển khai Kubernetes
- Triển khai mô hình AI chỉ bằng vài câu lệnh
Đây là yếu tố cực kỳ quan trọng vì các AI Cluster có thể lên tới hàng trăm node. Cấu hình thủ công gần như không khả thi.
5. Tầng AI Software – Phần mềm AI
Đây là nơi chạy các framework AI:
- NVIDIA CUDA
- NVIDIA NeMo
- NIM Operator
Các thành phần này chịu trách nhiệm:
- Tối ưu GPU
- Huấn luyện LLM
- Inference
- Triển khai AI Agent
- Serving Model
Có thể xem đây là "trái tim" của toàn bộ hệ thống AI.
6. Tầng Operations – Vận hành và giám sát
Cisco cung cấp:
- Cisco Intersight
- Nexus Dashboard
Các công cụ này giúp:
- Theo dõi GPU Utilization
- Theo dõi nhiệt độ, điện năng
- Giám sát network fabric
- Capacity Planning
- Predictive Failure Analysis
AI Cluster có giá trị hàng triệu USD nên khả năng observability là yêu cầu bắt buộc.
7. Storage Ecosystem – Hệ sinh thái lưu trữ
AI cần lưu trữ khối lượng dữ liệu khổng lồ:
- Training Dataset
- Vector Database
- Checkpoint Model
- Embedding
- Log
Cisco hỗ trợ tích hợp với:
- NetApp
- Pure Storage
- Nutanix
- Hitachi
- VAST
Trong thực tế, nhiều LLM có thể cần hàng chục hoặc hàng trăm TB dữ liệu huấn luyện.
8. Security – Bảo mật cho AI
Cisco bổ sung:
- Cisco Security
- AI Defense
- Hypershield
- Firewall
- Nexus Smart Switch
Mục tiêu:
- Bảo vệ mô hình AI
- Kiểm soát dữ liệu huấn luyện
- Phát hiện Prompt Injection
- Giám sát truy cập GPU và API
- Bảo vệ AI Agent
Khi AI trở thành hạ tầng trọng yếu, bảo mật AI sẽ quan trọng không kém bảo mật mạng.
9. Observability – Quan sát toàn bộ hệ thống
Cisco tích hợp:
- Splunk Observability Cloud
- OpenTelemetry Extensions
Cho phép theo dõi:
Application → Container → GPU → Server → Network → Storage
Điều này giúp xác định nhanh nguyên nhân gây ra:
- GPU bottleneck
- Network congestion
- Storage latency
- Lỗi inference
Nhìn tổng thể AI Stack của Cisco
Có thể hình dung AI Stack như sau:
Nexus Fabric → UCS Compute → Kubernetes → AI Software → Automation → Operations → Security → Storage → Observability
Đây chính là kiến trúc của một AI Data Center hiện đại, nơi mạng không còn chỉ là kết nối đơn thuần mà đã trở thành nền tảng quyết định hiệu năng của toàn bộ hệ thống AI. Trong kỷ nguyên Agentic AI, doanh nghiệp muốn triển khai AI ở quy mô lớn sẽ cần nhìn AI theo góc độ của cả một "stack" hoàn chỉnh thay vì chỉ tập trung vào GPU hay mô hình ngôn ngữ (LLM).