Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả

    Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả


    Nếu bạn là một kỹ sư mạng truyền thống, nhiều khả năng bạn đã quen với tư duy thiết kế quen thuộc:

    Cần nhiều hiệu năng hơn? → tăng bandwidth.

    10G lên 40G.
    40G lên 100G.
    100G lên 400G.

    Trong nhiều năm, đó là cách ngành networking vận hành.

    Nhưng AI đang thay đổi hoàn toàn luật chơi.

    Slide này tóm gọn rất đúng ba ưu tiên lớn của hạ tầng interconnect trong thế giới AI/ML:
    • Speed matters
    • Power matters
    • Solution integration matters

    Thoạt nhìn khá đơn giản. Nhưng phía sau là cả một cuộc tái định nghĩa Data Center Networking.
    1. Speed matters — Tốc độ vẫn là vua


    Điều đầu tiên cần hiểu: AI cluster là cỗ máy tạo traffic east-west khổng lồ.

    Khác với enterprise network truyền thống, nơi phần lớn traffic đi theo mô hình north-south:

    Client → Application → Server

    AI training cluster hoạt động khác hoàn toàn:

    GPU ↔ GPU
    GPU ↔ GPU memory
    Node ↔ Node
    Storage ↔ Compute

    Traffic liên tục chạy ngang trong fabric.

    Ví dụ:

    Một mô hình LLM lớn có thể huấn luyện trên:
    • 256 GPU
    • 512 GPU
    • 1024 GPU
    • thậm chí nhiều hơn

    Trong quá trình training, gradient synchronization diễn ra liên tục.

    Nếu interconnect chậm:

    GPU sẽ phải… ngồi chờ nhau.

    Đây là thảm họa vì GPU là tài nguyên cực kỳ đắt.

    Một GPU AI cao cấp có thể tốn hàng chục nghìn USD.

    Nếu GPU idle chỉ vì network bottleneck, chi phí đội lên rất nhanh.

    Đó là lý do slide nhấn mạnh:

    Interfaces: 800 GbE → 1.6 TbE
    Vì sao 800GbE chưa đủ?


    400GbE từng được xem là rất lớn.

    Nhưng AI cluster hiện nay khiến con số đó trở nên bình thường.

    Ví dụ:

    Một GPU server 8 GPU có thể cần:
    • 8 x 400G
      hoặc
    • nhiều uplink 800G

    Khi scale lên vài trăm node:

    fabric throughput tăng khủng khiếp.

    AI workload rất nhạy với:
    • latency
    • jitter
    • congestion
    • packet loss

    Không giống traffic web thông thường.
    SERDES đang bước vào thế hệ mới


    Slide có dòng:

    SERDES / λ 100 Gb/s → 200 Gb/s

    SERDES = Serializer/Deserializer

    Hiểu đơn giản:

    đây là công nghệ chuyển dữ liệu tốc độ cao giữa chip và interface.

    Ví dụ:

    Switch ASIC muốn đẩy traffic ra cổng 800G.

    Nếu mỗi lane chỉ hỗ trợ 100G:

    800G cần 8 lane.

    Nếu mỗi lane hỗ trợ 200G:

    800G chỉ cần 4 lane.

    Điều này mang lại lợi ích rất lớn:
    • ít lane hơn
    • PCB đơn giản hơn
    • giảm power
    • giảm heat
    • tăng port density

    Đây là nền tảng để đi tới:

    1.6 TbE Ethernet
    2. Power matters — Kẻ thù mới là điện năng


    Đây là phần dân networking truyền thống thường đánh giá thấp.

    Ngày xưa ta hỏi:

    “Switch throughput bao nhiêu?”

    Bây giờ câu hỏi là:

    “Switch đó ăn bao nhiêu điện?”
    Watt per Gigabit trở thành KPI chiến lược


    AI data center có thể chứa:
    • hàng trăm switch
    • hàng nghìn optics
    • hàng nghìn NIC

    Nếu mỗi component tăng thêm vài watt:

    chi phí điện bùng nổ.

    Ví dụ:

    Nếu 1 transceiver tăng thêm 5W.

    Nhân với 2000 optics:

    = 10,000W

    Chỉ riêng optics.

    Chưa tính:
    • switch ASIC
    • GPU servers
    • storage
    • cooling

    AI data center không chỉ bị giới hạn bởi budget.

    Nó bị giới hạn bởi:

    power envelope.
    Vì sao copper cables quay trở lại?


    Slide ghi:

    Copper Cables

    Điều này khá thú vị.

    Trong DC networking, optical thường được yêu thích vì:
    • khoảng cách xa
    • EMI immunity
    • hiệu năng cao

    Nhưng AI rack scale-out thay đổi bài toán.

    Nếu thiết bị nằm gần nhau:
    • cùng rack
    • adjacent rack

    Copper DAC có lợi thế:
    • rẻ hơn
    • ít power hơn
    • latency thấp
    • ít complexity

    Với AI cluster mật độ cao, điều này cực kỳ hấp dẫn.
    Linear Pluggable optics là gì?


    Slide đề cập:

    Linear pluggable

    Đây là xu hướng rất đáng chú ý.

    Optical transceiver truyền thống có DSP tích hợp.

    DSP giúp:
    • signal conditioning
    • retiming
    • error correction

    Nhưng DSP cũng:
    • tiêu tốn điện
    • sinh nhiệt
    • tăng cost

    Linear pluggable loại bỏ phần DSP phức tạp.

    Lợi ích:
    • power thấp hơn
    • latency thấp hơn
    • chi phí tốt hơn

    Trong AI cluster lớn, đây là lợi ích rất thực tế.
    3. Solution integration matters — Networking không còn đứng một mình


    Đây mới là thay đổi lớn nhất.

    Networking không còn là một silo độc lập.

    Slide liệt kê:
    • Rack density
    • Switch density
    • Liquid cooling

    Điều này nói lên tất cả.
    Rack density tăng khủng khiếp


    Enterprise rack truyền thống:

    5–15 kW/rack

    AI rack hiện đại:

    50–100 kW

    thậm chí cao hơn.

    Một số thiết kế bleeding-edge:

    100–150 kW+

    Lúc này networking bị ảnh hưởng trực tiếp.

    Không thể chỉ hỏi:

    “Switch đặt ở đâu?”

    Mà phải hỏi:
    • nguồn điện rack còn đủ không?
    • airflow có ổn không?
    • cable management ra sao?
    • thermal hotspots ở đâu?

    Switch density trở thành vấn đề vật lý


    AI fabric yêu cầu:

    rất nhiều high-speed ports.

    Ví dụ:

    64-port 800G switch

    Nghe đẹp.

    Nhưng thực tế:
    • power draw rất cao
    • optics rất nóng
    • cable cực dày
    • airflow cực khó

    Thiết kế rack không tốt:

    hiệu năng sẽ giảm hoặc thiết bị throttling.
    Liquid cooling không còn là chuyện của server team


    Ngày xưa cooling chủ yếu là CRAC/air cooling.

    AI era:

    air cooling bắt đầu đuối.

    GPU sinh nhiệt khổng lồ.

    Switch high-density cũng rất nóng.

    Liquid cooling trở thành thực tế.

    Điều này buộc networking engineer phải hiểu:
    • thermal constraints
    • rack mechanics
    • power distribution
    • facility integration

    Góc nhìn chiến lược cho kỹ sư mạng


    Nếu bạn đang làm CCNA/CCNP/CCIE và nghĩ:

    “AI là chuyện của data scientist.”

    Thực tế không phải vậy.

    AI infrastructure cần networking hơn bao giờ hết.

    Nhưng networking ở đây không còn chỉ là:
    • VLAN
    • STP
    • OSPF
    • BGP

    Mà là:
    • high-speed Ethernet
    • RDMA
    • RoCEv2
    • congestion control
    • PFC/ECN
    • AI fabric design
    • optics engineering
    • power engineering
    • thermal awareness

    Kết luận


    Slide này có thể tóm gọn bằng một câu:

    AI đang biến networking từ bài toán packet forwarding thành bài toán hệ thống tổng thể.

    Ngày xưa:

    “Có đủ bandwidth không?”

    Bây giờ:

    “Có đủ bandwidth, đủ điện, đủ cooling, đủ tích hợp hệ thống không?”

    Đó mới là networking trong kỷ nguyên AI.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X