Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Hai loại AI Cluster và cách nó kết nối vào máy tính

    🎯 Hiểu về 2 loại cụm AI (AI Cluster) và cách chúng tương tác với mạng máy tính

    Trong hệ thống AI, tùy theo mục đích sử dụng mà kiến trúc mạng và tài nguyên phần cứng sẽ được thiết kế rất khác nhau. Hai loại cụm chính là: 1️⃣ Distributed Training – Huấn luyện phân tán


    Đây là giai đoạn bạn huấn luyện một mô hình AI lớn, ví dụ như ChatGPT, Stable Diffusion hay các mô hình học sâu khác.

    🔹 Băng thông giữa các node (Node-to-Node Bandwidth): Rất cao. Vì các GPU cần truyền tải dữ liệu model liên tục.

    🔹 Chỉ số quan trọng: Thời gian huấn luyện (Training Time). Mục tiêu là rút ngắn thời gian huấn luyện càng nhanh càng tốt.

    🔹 Chế độ hoạt động: Offline. Bạn có thể huấn luyện trong nhiều giờ hoặc vài ngày, không yêu cầu phản hồi ngay lập tức.

    🔹 Hạ tầng yêu cầu: Hệ thống mạng rất lớn, nhiều máy chủ CPU/GPU mạnh kết nối với nhau – thường là sử dụng công nghệ như RDMA, InfiniBand, RoCE.

    🧠 Ví dụ minh họa: Một phòng lab huấn luyện mô hình GPT có thể sử dụng 64 máy chủ GPU A100, mỗi máy được kết nối qua mạng tốc độ 100 Gbps hoặc cao hơn.
    2️⃣ Production Inference – Suy luận khi chạy thật


    Đây là lúc bạn triển khai mô hình đã huấn luyện ra thực tế để phục vụ người dùng – ví dụ như chatbot, AI phân tích camera, hay gợi ý sản phẩm.

    🔹 Băng thông giữa các node: Thấp hơn, vì mô hình đã được huấn luyện sẵn và chỉ nhận đầu vào – xử lý – trả kết quả.

    🔹 Chỉ số quan trọng: Độ trễ thấp và khả dụng cao (Low Latency & High Availability). Người dùng cần phản hồi gần như tức thời.

    🔹 Chế độ hoạt động: Online. Hệ thống luôn phải sẵn sàng để nhận yêu cầu và phản hồi trong vài mili giây.

    🔹 Hạ tầng yêu cầu: Cụm nhỏ hơn, máy chủ CPU hoặc GPU vừa phải, dễ mở rộng theo chiều ngang để xử lý song song nhiều yêu cầu.

    🧠 Ví dụ minh họa: Hệ thống trả lời khách hàng bằng AI chỉ cần vài máy chủ GPU để phục vụ hàng trăm ngàn người dùng truy cập đồng thời.

    🔥 Tóm lại:
    • Huấn luyện AI đòi hỏi tốc độ truyền cực nhanh giữa các máy và tập trung vào tối ưu thời gian.
    • Suy luận AI khi chạy thật yêu cầu độ ổn định cao, đáp ứng nhanhdễ mở rộng khi người dùng tăng.

    Bạn đang vận hành AI ở giai đoạn nào? Đừng thiết kế hạ tầng "quá đà" hoặc "quá thiếu"! 😎
    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X