Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Hạ tầng cho AI

    AI không chỉ là mô hình, mà là cả một bài toán hạ tầng


    Nhiều người khi nói về AI thường chỉ nghĩ đến mô hình: LLM nào tốt hơn, tham số bao nhiêu tỷ, dùng pre-training hay fine-tuning, có tích hợp RAG hay không. Nhưng nếu nhìn từ góc độ hạ tầng, mô hình AI thực ra chỉ là phần nổi của tảng băng.

    Phía sau một hệ thống AI chạy được trong môi trường thật là cả một stack công nghệ khá đồ sộ.

    Ở lớp trên cùng là vòng đời của mô hình AI: huấn luyện ban đầu (pre-training), tinh chỉnh (fine-tuning), bổ sung tri thức ngoài qua RAG, rồi cuối cùng là giai đoạn suy luận (inference) — tức lúc người dùng thực sự gửi prompt và chờ phản hồi. Mỗi giai đoạn này lại có yêu cầu hạ tầng rất khác nhau. Huấn luyện thì ngốn GPU, inference thì cần tối ưu độ trễ, còn RAG lại phụ thuộc mạnh vào hệ thống lưu trữ và truy xuất dữ liệu.

    Ngay bên dưới là lớp framework và công cụ quản lý AI. Đây là thế giới của PyTorch, TensorFlow, Hugging Face, orchestration pipeline, model serving và monitoring. Xa hơn nữa là lớp ảo hóa và Kubernetes — thứ đang dần trở thành “VMware của thời AI”.

    Nhưng điều thú vị nhất nằm ở phần data center.

    Dù là AI triển khai trong doanh nghiệp (on-prem AI) hay các cụm AI quy mô hyperscale, những thành phần cốt lõi gần như không thay đổi: compute, storage, kiến trúc mạng, bảo mật và khả năng quan sát hệ thống.

    Compute thì ai cũng nghĩ đến GPU. Nhưng network mới là thứ dễ bị đánh giá thấp.

    AI training không giống workload enterprise truyền thống. GPU không thể ngồi chờ dữ liệu. Nếu mạng chậm, latency cao, congestion xảy ra hoặc east-west traffic nghẽn, cụm GPU trị giá hàng triệu đô có thể bị idle chỉ vì network bottleneck.

    Đó là lý do vì sao trong AI data center, mạng không còn là “phần kết nối” nữa, mà trở thành một thành phần trực tiếp quyết định hiệu suất AI.

    Nhìn hàng dưới của sơ đồ sẽ thấy rõ hơn: access, WAN, inter-data center, edge compute, inter-cluster. Điều này cho thấy AI không phải chỉ nằm trong một rack server. Nó là một hệ sinh thái phân tán, nơi dữ liệu, mô hình và compute liên tục di chuyển giữa nhiều domain.

    AI engineer có thể nói về model, nhưng để AI chạy thật ngoài production, hạ tầng mới là nơi quyết định thành bại.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X