Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11507
- Share
- Tweet
#1

Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả

20-05-2026, 07:55 AM

Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả

Nếu bạn là một kỹ sư mạng truyền thống, nhiều khả năng bạn đã quen với tư duy thiết kế quen thuộc:

Cần nhiều hiệu năng hơn? → tăng bandwidth.

10G lên 40G.
40G lên 100G.
100G lên 400G.

Trong nhiều năm, đó là cách ngành networking vận hành.

Nhưng AI đang thay đổi hoàn toàn luật chơi.

Slide này tóm gọn rất đúng ba ưu tiên lớn của hạ tầng interconnect trong thế giới AI/ML:
Speed matters

Power matters

Solution integration matters

Thoạt nhìn khá đơn giản. Nhưng phía sau là cả một cuộc tái định nghĩa Data Center Networking.
1. Speed matters — Tốc độ vẫn là vua

Điều đầu tiên cần hiểu: AI cluster là cỗ máy tạo traffic east-west khổng lồ.

Khác với enterprise network truyền thống, nơi phần lớn traffic đi theo mô hình north-south:

Client → Application → Server

AI training cluster hoạt động khác hoàn toàn:

GPU ↔ GPU
GPU ↔ GPU memory
Node ↔ Node
Storage ↔ Compute

Traffic liên tục chạy ngang trong fabric.

Ví dụ:

Một mô hình LLM lớn có thể huấn luyện trên:
256 GPU

512 GPU

1024 GPU

thậm chí nhiều hơn

Trong quá trình training, gradient synchronization diễn ra liên tục.

Nếu interconnect chậm:

GPU sẽ phải… ngồi chờ nhau.

Đây là thảm họa vì GPU là tài nguyên cực kỳ đắt.

Một GPU AI cao cấp có thể tốn hàng chục nghìn USD.

Nếu GPU idle chỉ vì network bottleneck, chi phí đội lên rất nhanh.

Đó là lý do slide nhấn mạnh:

Interfaces: 800 GbE → 1.6 TbE
Vì sao 800GbE chưa đủ?

400GbE từng được xem là rất lớn.

Nhưng AI cluster hiện nay khiến con số đó trở nên bình thường.

Ví dụ:

Một GPU server 8 GPU có thể cần:
8 x 400G
hoặc

nhiều uplink 800G

Khi scale lên vài trăm node:

fabric throughput tăng khủng khiếp.

AI workload rất nhạy với:
latency

jitter

congestion

packet loss

Không giống traffic web thông thường.
SERDES đang bước vào thế hệ mới

Slide có dòng:

SERDES / λ 100 Gb/s → 200 Gb/s

SERDES = Serializer/Deserializer

Hiểu đơn giản:

đây là công nghệ chuyển dữ liệu tốc độ cao giữa chip và interface.

Ví dụ:

Switch ASIC muốn đẩy traffic ra cổng 800G.

Nếu mỗi lane chỉ hỗ trợ 100G:

800G cần 8 lane.

Nếu mỗi lane hỗ trợ 200G:

800G chỉ cần 4 lane.

Điều này mang lại lợi ích rất lớn:
ít lane hơn

PCB đơn giản hơn

giảm power

giảm heat

tăng port density

Đây là nền tảng để đi tới:

1.6 TbE Ethernet
2. Power matters — Kẻ thù mới là điện năng

Đây là phần dân networking truyền thống thường đánh giá thấp.

Ngày xưa ta hỏi:

“Switch throughput bao nhiêu?”

Bây giờ câu hỏi là:

“Switch đó ăn bao nhiêu điện?”
Watt per Gigabit trở thành KPI chiến lược

AI data center có thể chứa:
hàng trăm switch

hàng nghìn optics

hàng nghìn NIC

Nếu mỗi component tăng thêm vài watt:

chi phí điện bùng nổ.

Ví dụ:

Nếu 1 transceiver tăng thêm 5W.

Nhân với 2000 optics:

= 10,000W

Chỉ riêng optics.

Chưa tính:
switch ASIC

GPU servers

storage

cooling

AI data center không chỉ bị giới hạn bởi budget.

Nó bị giới hạn bởi:

power envelope.
Vì sao copper cables quay trở lại?

Slide ghi:

Copper Cables

Điều này khá thú vị.

Trong DC networking, optical thường được yêu thích vì:
khoảng cách xa

EMI immunity

hiệu năng cao

Nhưng AI rack scale-out thay đổi bài toán.

Nếu thiết bị nằm gần nhau:
cùng rack

adjacent rack

Copper DAC có lợi thế:
rẻ hơn

ít power hơn

latency thấp

ít complexity

Với AI cluster mật độ cao, điều này cực kỳ hấp dẫn.
Linear Pluggable optics là gì?

Slide đề cập:

Linear pluggable

Đây là xu hướng rất đáng chú ý.

Optical transceiver truyền thống có DSP tích hợp.

DSP giúp:
signal conditioning

retiming

error correction

Nhưng DSP cũng:
tiêu tốn điện

sinh nhiệt

tăng cost

Linear pluggable loại bỏ phần DSP phức tạp.

Lợi ích:
power thấp hơn

latency thấp hơn

chi phí tốt hơn

Trong AI cluster lớn, đây là lợi ích rất thực tế.
3. Solution integration matters — Networking không còn đứng một mình

Đây mới là thay đổi lớn nhất.

Networking không còn là một silo độc lập.

Slide liệt kê:
Rack density

Switch density

Liquid cooling

Điều này nói lên tất cả.
Rack density tăng khủng khiếp

Enterprise rack truyền thống:

5–15 kW/rack

AI rack hiện đại:

50–100 kW

thậm chí cao hơn.

Một số thiết kế bleeding-edge:

100–150 kW+

Lúc này networking bị ảnh hưởng trực tiếp.

Không thể chỉ hỏi:

“Switch đặt ở đâu?”

Mà phải hỏi:
nguồn điện rack còn đủ không?

airflow có ổn không?

cable management ra sao?

thermal hotspots ở đâu?

Switch density trở thành vấn đề vật lý

AI fabric yêu cầu:

rất nhiều high-speed ports.

Ví dụ:

64-port 800G switch

Nghe đẹp.

Nhưng thực tế:
power draw rất cao

optics rất nóng

cable cực dày

airflow cực khó

Thiết kế rack không tốt:

hiệu năng sẽ giảm hoặc thiết bị throttling.
Liquid cooling không còn là chuyện của server team

Ngày xưa cooling chủ yếu là CRAC/air cooling.

AI era:

air cooling bắt đầu đuối.

GPU sinh nhiệt khổng lồ.

Switch high-density cũng rất nóng.

Liquid cooling trở thành thực tế.

Điều này buộc networking engineer phải hiểu:
thermal constraints

rack mechanics

power distribution

facility integration

Góc nhìn chiến lược cho kỹ sư mạng

Nếu bạn đang làm CCNA/CCNP/CCIE và nghĩ:

“AI là chuyện của data scientist.”

Thực tế không phải vậy.

AI infrastructure cần networking hơn bao giờ hết.

Nhưng networking ở đây không còn chỉ là:
VLAN

STP

OSPF

BGP

Mà là:
high-speed Ethernet

RDMA

RoCEv2

congestion control

PFC/ECN

AI fabric design

optics engineering

power engineering

thermal awareness

Kết luận

Slide này có thể tóm gọn bằng một câu:

AI đang biến networking từ bài toán packet forwarding thành bài toán hệ thống tổng thể.

Ngày xưa:

“Có đủ bandwidth không?”

Bây giờ:

“Có đủ bandwidth, đủ điện, đủ cooling, đủ tích hợp hệ thống không?”

Đó mới là networking trong kỷ nguyên AI.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next