AI Stack - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11015
- Share
- Tweet
#1

AI Stack

9 hours ago

AI Stack (ngăn xếp AI) hoàn chỉnh của Cisco, được thiết kế để triển khai các hệ thống AI từ giai đoạn huấn luyện (Training), tối ưu (Optimization) đến suy luận (Inferencing). Điểm đáng chú ý là Cisco không chỉ bán switch hay server riêng lẻ mà xây dựng một hệ sinh thái AI Data Center hoàn chỉnh, bao gồm compute, network, storage, automation, security và vận hành.

1. Tầng High-Performance Networking – Mạng hiệu năng cao

Đây là nền tảng ở lớp dưới cùng, sử dụng Cisco Nexus để xây dựng mạng AI Fabric tốc độ cao. Trong các cụm AI hiện đại, GPU không hoạt động độc lập mà phải trao đổi dữ liệu liên tục với nhau. Vì vậy, mạng AI cần:
Băng thông 400G/800G Ethernet

Độ trễ cực thấp (Low Latency)

Lossless Ethernet với PFC, ECN

Hỗ trợ RoCEv2 cho GPU communication

Có thể hình dung Nexus trong AI Cluster giống như "hệ thần kinh" kết nối hàng trăm hoặc hàng nghìn GPU lại với nhau.
2. Tầng Accelerated Compute – Hạ tầng tính toán tăng tốc

Phía trên là Cisco UCS (Unified Computing System).

Đây là nơi đặt:
CPU

GPU NVIDIA H100, H200, B200, L40S…

Bộ nhớ RAM dung lượng lớn

PCIe Gen5, NVLink

Nhiệm vụ của tầng này là cung cấp sức mạnh tính toán cho:
Training LLM

Fine-tuning

RAG

AI Agent

Inference

Ví dụ tại VnPro, một server UCS C240 M7 gắn 2 GPU L40S có thể dùng để triển khai RAG và Fine-tuning cho các mô hình ngôn ngữ nhỏ và vừa.
3. Tầng Kubernetes – Điều phối AI Workload

Các workload AI hiện nay hiếm khi chạy trực tiếp trên server vật lý.

Chúng thường chạy trên:
Red Hat OpenShift

Ubuntu

Rancher

Kubernetes giúp:
Triển khai container AI

Scale cụm GPU

Tự động phục hồi

Quản lý tài nguyên GPU

Multi-tenancy

Nếu Nexus là hệ thần kinh và UCS là cơ bắp, thì Kubernetes chính là "bộ não điều phối", quyết định workload nào chạy ở GPU nào.
4. Tầng Automation – Tự động hóa

Cisco tích hợp nhiều công cụ tự động hóa như:
Ansible

Terraform

API/DevOps Toolchain

Vai trò của tầng này:
Provision server tự động

Cấu hình mạng AI Fabric

Tự động triển khai Kubernetes

Triển khai mô hình AI chỉ bằng vài câu lệnh

Đây là yếu tố cực kỳ quan trọng vì các AI Cluster có thể lên tới hàng trăm node. Cấu hình thủ công gần như không khả thi.
5. Tầng AI Software – Phần mềm AI

Đây là nơi chạy các framework AI:
NVIDIA CUDA

NVIDIA NeMo

NIM Operator

Các thành phần này chịu trách nhiệm:
Tối ưu GPU

Huấn luyện LLM

Inference

Triển khai AI Agent

Serving Model

Có thể xem đây là "trái tim" của toàn bộ hệ thống AI.
6. Tầng Operations – Vận hành và giám sát

Cisco cung cấp:
Cisco Intersight

Nexus Dashboard

Các công cụ này giúp:
Theo dõi GPU Utilization

Theo dõi nhiệt độ, điện năng

Giám sát network fabric

Capacity Planning

Predictive Failure Analysis

AI Cluster có giá trị hàng triệu USD nên khả năng observability là yêu cầu bắt buộc.
7. Storage Ecosystem – Hệ sinh thái lưu trữ

AI cần lưu trữ khối lượng dữ liệu khổng lồ:
Training Dataset

Vector Database

Checkpoint Model

Embedding

Log

Cisco hỗ trợ tích hợp với:
NetApp

Pure Storage

Nutanix

Hitachi

VAST

Trong thực tế, nhiều LLM có thể cần hàng chục hoặc hàng trăm TB dữ liệu huấn luyện.
8. Security – Bảo mật cho AI

Cisco bổ sung:
Cisco Security

AI Defense

Hypershield

Firewall

Nexus Smart Switch

Mục tiêu:
Bảo vệ mô hình AI

Kiểm soát dữ liệu huấn luyện

Phát hiện Prompt Injection

Giám sát truy cập GPU và API

Bảo vệ AI Agent

Khi AI trở thành hạ tầng trọng yếu, bảo mật AI sẽ quan trọng không kém bảo mật mạng.
9. Observability – Quan sát toàn bộ hệ thống

Cisco tích hợp:
Splunk Observability Cloud

OpenTelemetry Extensions

Cho phép theo dõi:

Application → Container → GPU → Server → Network → Storage

Điều này giúp xác định nhanh nguyên nhân gây ra:
GPU bottleneck

Network congestion

Storage latency

Lỗi inference

Nhìn tổng thể AI Stack của Cisco

Có thể hình dung AI Stack như sau:

Nexus Fabric → UCS Compute → Kubernetes → AI Software → Automation → Operations → Security → Storage → Observability

Đây chính là kiến trúc của một AI Data Center hiện đại, nơi mạng không còn chỉ là kết nối đơn thuần mà đã trở thành nền tảng quyết định hiệu năng của toàn bộ hệ thống AI. Trong kỷ nguyên Agentic AI, doanh nghiệp muốn triển khai AI ở quy mô lớn sẽ cần nhìn AI theo góc độ của cả một "stack" hoàn chỉnh thay vì chỉ tập trung vào GPU hay mô hình ngôn ngữ (LLM).
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None