Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • AI Workloads

    📌 AI Workload Requirements – Yêu cầu hạ tầng cho AI (Dành cho người làm IT & Networking)


    Trong các bài trước, chúng ta đã nói nhiều về AI Infrastructure, AI Agent, và sự khác biệt giữa AI DevNetworking for AI. Hôm nay, chúng ta đi sâu hơn vào một câu hỏi rất quan trọng:

    👉 Một hệ thống AI thực sự cần gì từ hạ tầng?

    🧠 1. Technical Requirements – Yêu cầu kỹ thuật của AI


    Đây là phần mà đa số kỹ sư hạ tầng (network, system, cloud) sẽ chịu trách nhiệm chính.

    🔹 Zero Loss – Không được mất dữ liệu


    AI training (đặc biệt là distributed training) cực kỳ nhạy cảm với packet loss.
    • Chỉ cần mất một packet → có thể phải retransmit toàn bộ job
    • Trong AI cluster → “loss = performance collapse”

    👉 Đây là lý do vì sao:
    • RDMA / RoCE được dùng
    • Data Center network phải cực kỳ ổn định

    🔹 Low Latency – Độ trễ cực thấp


    Ví dụ trong slide:
    • RTT ~ 4.5 microseconds (µs)

    👉 Đây là mức latency của:
    • High-performance DC (InfiniBand / RoCE)
    • Không phải network enterprise thông thường

    📌 Vì sao quan trọng?
    • AI training cần synchronization giữa GPU nodes
    • Latency cao → GPU idle → lãng phí hàng triệu USD hardware

    🔹 High Bandwidth – Băng thông cực lớn
    • AI workload (LLM training) cần:
      • 100Gbps / 200Gbps / 400Gbps NIC
    • Traffic kiểu:
      • All-to-All communication

    👉 Không phải north-south traffic như web
    👉 Mà là east-west traffic cực nặng
    🔹 Optimal Path Selection – Chọn đường đi tối ưu
    • ECMP
    • Load balancing
    • Spine-Leaf architecture

    👉 Nếu routing không tối ưu:
    • Congestion xảy ra
    • Một GPU node bị chậm → cả cluster bị kéo xuống

    🔹 Congestion Avoidance & Notification
    • ECN (Explicit Congestion Notification)
    • PFC (Priority Flow Control)

    👉 Đây là “bí mật” của AI network:
    • Không chỉ tránh nghẽn
    • Mà phải phản ứng realtime khi nghẽn xảy ra

    🔹 Flow Control – Kiểm soát luồng


    Slide có câu rất hay:
    “few large flows – worst flow matters!”

    👉 Khác với network truyền thống:
    • Không phải nhiều flow nhỏ
    • Mà là ít flow nhưng cực lớn

    📌 Chỉ cần 1 flow bị chậm:
    → cả job AI bị ảnh hưởng
    🔹 Quality of Service (QoS)
    • Ưu tiên traffic AI
    • Phân loại:
      • Storage traffic
      • Training traffic
      • Control traffic

    🔹 Security – Bảo mật


    Không chỉ là firewall:
    • Bảo vệ model
    • Bảo vệ dataset
    • Bảo vệ pipeline training

    👉 AI = tài sản trí tuệ cực lớn
    🔹 Observability – Khả năng quan sát


    Bao gồm:
    • Performance
    • Quality
    • Availability

    📌 Công cụ:
    • Telemetry
    • NetFlow
    • GPU monitoring
    • AI observability platforms

    🔹 Job Completion Time (JCT)


    👉 KPI quan trọng nhất trong AI
    • Không phải CPU usage
    • Không phải bandwidth

    👉 Mà là:
    “Mất bao lâu để train xong model?”

    🔹 Storage
    • Distributed storage
    • High throughput
    • Low latency

    Ví dụ:
    • NVMe over Fabric
    • Parallel file system

    🔹 Data Center (Power, Space, Cooling)


    AI không chỉ là IT, mà là facility engineering:
    • GPU cluster tiêu thụ:
      • hàng MW điện
    • Cooling:
      • liquid cooling
      • immersion cooling

    🔹 Scalable & Predictable
    • Scale-out dễ dàng
    • Performance phải predictable

    👉 Không thể “random performance” trong AI
    ⚙️ 2. Other Requirements – Các yếu tố ngoài kỹ thuật


    Đây là phần nhiều doanh nghiệp đánh giá thấp nhưng cực kỳ quan trọng.
    🔹 Data Concerns – Các vấn đề về dữ liệu


    Bao gồm:
    • Classification – phân loại dữ liệu
    • Sovereignty – dữ liệu ở quốc gia nào
    • Lifecycle – vòng đời dữ liệu
    • Intellectual Property (IP) – sở hữu trí tuệ
    • Data Loss – mất dữ liệu
    • Data Quality – chất lượng dữ liệu

    👉 AI chỉ tốt khi dữ liệu tốt
    🔹 Money (CAPEX / OPEX)


    AI rất đắt:
    • GPU cluster: triệu USD
    • Network: 100/400G fabric
    • Storage: high-performance tier

    👉 Câu hỏi lớn:
    • Build hay thuê cloud?
    • ROI có đáng không?

    🔹 People (Con người)


    Bao gồm:
    • Skillset
    • Training
    • Vận hành

    👉 Thiếu người giỏi:
    → hệ thống AI sẽ thất bại dù đầu tư lớn
    🔹 Support (Operational Sustainability)
    • Monitoring
    • Troubleshooting
    • Lifecycle management

    👉 AI system = luôn phải chạy 24/7
    🔹 Agile / Lean IT
    • Triển khai nhanh
    • Thử nghiệm liên tục
    • Iteration nhanh

    👉 AI không phải project 1 lần
    → mà là continuous improvement
    🚀 Góc nhìn thực chiến cho kỹ sư mạng & hạ tầng


    Nếu bạn là Network Engineer hoặc System Engineer:

    👉 Đây là sự thật:

    AI không cần network “ổn”
    AI cần network “perfect”

    📌 So sánh nhanh
    Best effort Deterministic
    Latency ms Latency µs
    Packet loss OK Packet loss = disaster
    North-South East-West heavy
    Many small flows Few huge flows

    🎯 Kết luận


    AI không chỉ là:
    • Model
    • Prompt
    • ChatGPT

    👉 Mà phía sau là một hệ thống:
    • Network cực nhanh
    • Storage cực mạnh
    • Data cực chuẩn
    • Con người cực giỏi
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X