Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • AI-Ready Data Center – Từ Hạ Tầng CNTT Truyền Thống Đến Hạ Tầng Dành Cho AI

    AI-Ready Data Center – Từ Hạ Tầng CNTT Truyền Thống Đến Hạ Tầng Dành Cho AI


    Trong nhiều năm, kiến trúc trung tâm dữ liệu truyền thống được thiết kế để phục vụ các ứng dụng doanh nghiệp như:
    • ERP
    • CRM
    • Database
    • Virtual Machine
    • Web Application

    Các ứng dụng này chủ yếu xử lý giao dịch (Transactional Processing), yêu cầu lưu lượng East-West tương đối thấp và không đòi hỏi khối lượng tính toán khổng lồ.

    Tuy nhiên, sự xuất hiện của Generative AI, Agentic AI và Large Language Models (LLM) đã làm thay đổi hoàn toàn yêu cầu đối với Data Center.

    Một cụm AI hiện đại có thể bao gồm:
    • Hàng nghìn GPU
    • Hàng chục nghìn CPU Core
    • Hàng trăm TB RAM
    • Hàng PB dữ liệu huấn luyện

    Khối lượng lưu lượng East-West giữa các GPU có thể lên đến:
    • 400 Gbps
    • 800 Gbps
    • 1.6 Tbps

    Mỗi tác vụ AI Training có thể phát sinh hàng triệu phép trao đổi tham số (Parameter Exchange) giữa các GPU.

    Do đó, Data Center hiện đại không thể chỉ đơn thuần là tập hợp của Server, Storage và Network như trước đây mà phải được xây dựng như một Integrated Full Stack Architecture.
    Lớp Nền Tảng: Networking, Silicon and Optics


    Mọi hệ thống AI đều bắt đầu từ lớp hạ tầng thấp nhất.

    Lớp này bao gồm:
    • Ethernet Fabric
    • InfiniBand Fabric
    • Silicon Switching ASIC
    • DPU/IPU
    • SmartNIC
    • Optical Transceiver
    • Co-Packaged Optics (CPO)
    • Silicon Photonics

    Trong AI Cluster, mạng không còn là thành phần phụ trợ.

    Mạng trở thành yếu tố quyết định hiệu năng huấn luyện.

    Chỉ cần độ trễ tăng thêm vài microsecond hoặc một số lượng nhỏ packet loss xuất hiện, hiệu suất GPU có thể giảm đáng kể.

    Các workload như:
    • All-Reduce
    • All-Gather
    • Parameter Synchronization

    đòi hỏi:
    • Ultra-low latency
    • High throughput
    • Lossless transport
    • Predictable performance

    Đây là lý do các công nghệ như:
    • RoCEv2
    • ECMP
    • VXLAN EVPN
    • PFC
    • ECN
    • RDMA

    đang trở thành nền tảng của các AI Fabric hiện đại.
    Lớp Compute and Storage


    Phía trên lớp mạng là lớp tính toán và lưu trữ.

    Đây là nơi triển khai:
    • GPU Cluster
    • CPU Farm
    • Distributed Storage
    • NVMe-oF
    • Object Storage
    • Parallel File System

    Các mô hình AI hiện đại có thể chứa:
    • Hàng tỷ tham số (Billions of Parameters)
    • Hàng nghìn tỷ tham số (Trillions of Parameters)

    Do đó, yêu cầu về Compute và Storage đã thay đổi hoàn toàn.

    Bài toán không chỉ là:
    Có bao nhiêu CPU?

    mà là:
    Có bao nhiêu GPU có thể hoạt động đồng thời với hiệu suất tối đa?

    Đồng thời, Storage phải cung cấp:
    • Throughput cực cao
    • Độ trễ thấp
    • Khả năng truy cập song song quy mô lớn

    Lớp Application Platforms


    Lớp này cung cấp môi trường vận hành cho ứng dụng.

    Thông thường bao gồm:
    • Kubernetes
    • OpenShift
    • Container Platform
    • AI Orchestrator
    • GPU Scheduler

    Vai trò của lớp này là:
    • Quản lý tài nguyên
    • Điều phối container
    • Phân bổ GPU
    • Quản lý vòng đời ứng dụng AI

    Trong AI Data Center hiện đại, Kubernetes gần như trở thành hệ điều hành của trung tâm dữ liệu.
    Lớp Applications


    Slide chia ứng dụng thành hai nhóm. Traditional Applications


    Bao gồm:
    • ERP
    • CRM
    • Email
    • Database
    • Business Application

    Các ứng dụng này vẫn tiếp tục tồn tại trong Data Center.

    Tuy nhiên, chúng không còn là workload duy nhất.
    AI Applications


    Bao gồm:
    • Generative AI
    • Large Language Model (LLM)
    • AI Agents
    • Recommendation Engine
    • Computer Vision
    • Autonomous Systems

    Các ứng dụng này có những đặc tính hoàn toàn khác:
    • GPU-intensive
    • Data-intensive
    • East-West intensive
    • Highly distributed

    Chính các ứng dụng AI đang tạo ra yêu cầu xây dựng thế hệ Data Center hoàn toàn mới.
    Models, Frameworks and Tooling


    Lớp trên cùng là:
    • PyTorch
    • TensorFlow
    • JAX
    • CUDA
    • NCCL
    • MLFlow
    • LangChain
    • Agent Framework

    Đây là môi trường mà các Data Scientist và AI Engineer làm việc hàng ngày.

    Điểm quan trọng là hiệu năng của lớp này phụ thuộc trực tiếp vào toàn bộ các lớp phía dưới.

    Một mô hình AI mạnh sẽ không thể hoạt động hiệu quả nếu:
    • GPU không đủ
    • Storage bị nghẽn
    • Fabric có packet loss
    • Latency không ổn định

    Security – Bảo Mật Là Yêu Cầu Xuyên Suốt


    Trong slide, Security được đặt theo chiều dọc của toàn bộ Stack.

    Điều này mang ý nghĩa rất quan trọng.

    Bảo mật không phải là một sản phẩm độc lập.

    Bảo mật phải hiện diện trong:
    • Network
    • Compute
    • Storage
    • Platform
    • Application
    • AI Model

    Các kiến trúc AI hiện đại phải giải quyết đồng thời:
    • Data Privacy
    • Model Security
    • API Security
    • Supply Chain Security
    • Identity and Access Management (IAM)
    • Zero Trust

    Observability – Khả Năng Quan Sát Toàn Bộ Hệ Thống


    Quan sát hệ thống (Observability) cũng là một chức năng xuyên suốt.

    Trong AI Data Center, chúng ta phải theo dõi:
    • GPU Utilization
    • Network Congestion
    • Fabric Latency
    • Storage Throughput
    • Job Completion Time (JCT)
    • Application Performance

    Nếu thiếu Observability, doanh nghiệp sẽ rất khó xác định:
    • GPU đang nhàn rỗi ở đâu
    • Fabric đang bị nghẽn ở đâu
    • Vì sao thời gian huấn luyện tăng lên
    • Vì sao hiệu suất AI Cluster suy giảm

    Đây là lý do Telemetry, Streaming Analytics và AI Operations (AIOps) ngày càng trở nên quan trọng.
    Everything-as-Code


    Slide cũng nhấn mạnh triết lý:

    Everything-as-Code

    Không chỉ Infrastructure-as-Code mà toàn bộ Data Center đều được mô tả bằng mã:
    • Infrastructure-as-Code (IaC)
    • Network-as-Code (NaC)
    • Policy-as-Code (PaC)
    • Security-as-Code (SaC)
    • Observability-as-Code (OaC)

    Điều này cho phép:
    • Tự động hóa
    • Khả năng lặp lại
    • Phiên bản hóa
    • Khả năng mở rộng quy mô AI Cluster nhanh chóng

    as-a-Service và Sustainability


    AI Data Center hiện đại được cung cấp dưới dạng:

    as-a-Service

    Doanh nghiệp có thể tiêu thụ:
    • GPU-as-a-Service
    • AI Platform-as-a-Service
    • Model-as-a-Service

    thay vì phải sở hữu toàn bộ hạ tầng.

    Đồng thời, vấn đề Sustainability ngày càng trở nên quan trọng.

    Một AI Cluster hàng nghìn GPU có thể tiêu thụ:
    • Hàng MW điện năng
    • Hệ thống làm mát quy mô lớn
    • Mật độ công suất trên mỗi rack vượt xa Data Center truyền thống

    Do đó, tối ưu năng lượng và phát triển bền vững đã trở thành một tiêu chí thiết kế cốt lõi của AI-Ready Data Center.
    Kết Luận


    Slide này cho thấy một thông điệp rất rõ ràng:
    AI không phải là một ứng dụng được gắn thêm vào Data Center truyền thống.

    Ngược lại, AI đang buộc toàn bộ Data Center phải được thiết kế lại theo mô hình Integrated Full Stack Architecture, nơi:

    Networking + Silicon + Optics → Compute & Storage → Platforms → Applications → Models

    được tích hợp chặt chẽ, trong khi SecurityObservability hoạt động xuyên suốt toàn bộ Stack.

    Đó chính là định nghĩa của một AI-Ready Data Center – trung tâm dữ liệu được thiết kế từ nền tảng để phục vụ các workload AI ở quy mô lớn, với hiệu năng, khả năng tự động hóa và tính bền vững cao.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X