Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • AI Stack

    AI Stack (ngăn xếp AI) hoàn chỉnh của Cisco, được thiết kế để triển khai các hệ thống AI từ giai đoạn huấn luyện (Training), tối ưu (Optimization) đến suy luận (Inferencing). Điểm đáng chú ý là Cisco không chỉ bán switch hay server riêng lẻ mà xây dựng một hệ sinh thái AI Data Center hoàn chỉnh, bao gồm compute, network, storage, automation, security và vận hành.

    1. Tầng High-Performance Networking – Mạng hiệu năng cao


    Đây là nền tảng ở lớp dưới cùng, sử dụng Cisco Nexus để xây dựng mạng AI Fabric tốc độ cao. Trong các cụm AI hiện đại, GPU không hoạt động độc lập mà phải trao đổi dữ liệu liên tục với nhau. Vì vậy, mạng AI cần:
    • Băng thông 400G/800G Ethernet
    • Độ trễ cực thấp (Low Latency)
    • Lossless Ethernet với PFC, ECN
    • Hỗ trợ RoCEv2 cho GPU communication

    Có thể hình dung Nexus trong AI Cluster giống như "hệ thần kinh" kết nối hàng trăm hoặc hàng nghìn GPU lại với nhau.
    2. Tầng Accelerated Compute – Hạ tầng tính toán tăng tốc


    Phía trên là Cisco UCS (Unified Computing System).

    Đây là nơi đặt:
    • CPU
    • GPU NVIDIA H100, H200, B200, L40S…
    • Bộ nhớ RAM dung lượng lớn
    • PCIe Gen5, NVLink

    Nhiệm vụ của tầng này là cung cấp sức mạnh tính toán cho:
    • Training LLM
    • Fine-tuning
    • RAG
    • AI Agent
    • Inference

    Ví dụ tại VnPro, một server UCS C240 M7 gắn 2 GPU L40S có thể dùng để triển khai RAG và Fine-tuning cho các mô hình ngôn ngữ nhỏ và vừa.
    3. Tầng Kubernetes – Điều phối AI Workload


    Các workload AI hiện nay hiếm khi chạy trực tiếp trên server vật lý.

    Chúng thường chạy trên:
    • Red Hat OpenShift
    • Ubuntu
    • Rancher

    Kubernetes giúp:
    • Triển khai container AI
    • Scale cụm GPU
    • Tự động phục hồi
    • Quản lý tài nguyên GPU
    • Multi-tenancy

    Nếu Nexus là hệ thần kinh và UCS là cơ bắp, thì Kubernetes chính là "bộ não điều phối", quyết định workload nào chạy ở GPU nào.
    4. Tầng Automation – Tự động hóa


    Cisco tích hợp nhiều công cụ tự động hóa như:
    • Ansible
    • Terraform
    • API/DevOps Toolchain

    Vai trò của tầng này:
    • Provision server tự động
    • Cấu hình mạng AI Fabric
    • Tự động triển khai Kubernetes
    • Triển khai mô hình AI chỉ bằng vài câu lệnh

    Đây là yếu tố cực kỳ quan trọng vì các AI Cluster có thể lên tới hàng trăm node. Cấu hình thủ công gần như không khả thi.
    5. Tầng AI Software – Phần mềm AI


    Đây là nơi chạy các framework AI:
    • NVIDIA CUDA
    • NVIDIA NeMo
    • NIM Operator

    Các thành phần này chịu trách nhiệm:
    • Tối ưu GPU
    • Huấn luyện LLM
    • Inference
    • Triển khai AI Agent
    • Serving Model

    Có thể xem đây là "trái tim" của toàn bộ hệ thống AI.
    6. Tầng Operations – Vận hành và giám sát


    Cisco cung cấp:
    • Cisco Intersight
    • Nexus Dashboard

    Các công cụ này giúp:
    • Theo dõi GPU Utilization
    • Theo dõi nhiệt độ, điện năng
    • Giám sát network fabric
    • Capacity Planning
    • Predictive Failure Analysis

    AI Cluster có giá trị hàng triệu USD nên khả năng observability là yêu cầu bắt buộc.
    7. Storage Ecosystem – Hệ sinh thái lưu trữ


    AI cần lưu trữ khối lượng dữ liệu khổng lồ:
    • Training Dataset
    • Vector Database
    • Checkpoint Model
    • Embedding
    • Log

    Cisco hỗ trợ tích hợp với:
    • NetApp
    • Pure Storage
    • Nutanix
    • Hitachi
    • VAST

    Trong thực tế, nhiều LLM có thể cần hàng chục hoặc hàng trăm TB dữ liệu huấn luyện.
    8. Security – Bảo mật cho AI


    Cisco bổ sung:
    • Cisco Security
    • AI Defense
    • Hypershield
    • Firewall
    • Nexus Smart Switch

    Mục tiêu:
    • Bảo vệ mô hình AI
    • Kiểm soát dữ liệu huấn luyện
    • Phát hiện Prompt Injection
    • Giám sát truy cập GPU và API
    • Bảo vệ AI Agent

    Khi AI trở thành hạ tầng trọng yếu, bảo mật AI sẽ quan trọng không kém bảo mật mạng.
    9. Observability – Quan sát toàn bộ hệ thống


    Cisco tích hợp:
    • Splunk Observability Cloud
    • OpenTelemetry Extensions

    Cho phép theo dõi:

    Application → Container → GPU → Server → Network → Storage

    Điều này giúp xác định nhanh nguyên nhân gây ra:
    • GPU bottleneck
    • Network congestion
    • Storage latency
    • Lỗi inference

    Nhìn tổng thể AI Stack của Cisco


    Có thể hình dung AI Stack như sau:

    Nexus Fabric → UCS Compute → Kubernetes → AI Software → Automation → Operations → Security → Storage → Observability

    Đây chính là kiến trúc của một AI Data Center hiện đại, nơi mạng không còn chỉ là kết nối đơn thuần mà đã trở thành nền tảng quyết định hiệu năng của toàn bộ hệ thống AI. Trong kỷ nguyên Agentic AI, doanh nghiệp muốn triển khai AI ở quy mô lớn sẽ cần nhìn AI theo góc độ của cả một "stack" hoàn chỉnh thay vì chỉ tập trung vào GPU hay mô hình ngôn ngữ (LLM).​
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X