Hạ tầng kết nối trong kỷ nguyên AI/ML: Khi tốc độ không còn là tất cả
Nếu bạn là một kỹ sư mạng truyền thống, nhiều khả năng bạn đã quen với tư duy thiết kế quen thuộc:
Cần nhiều hiệu năng hơn? → tăng bandwidth.
10G lên 40G.
40G lên 100G.
100G lên 400G.
Trong nhiều năm, đó là cách ngành networking vận hành.
Nhưng AI đang thay đổi hoàn toàn luật chơi.
Slide này tóm gọn rất đúng ba ưu tiên lớn của hạ tầng interconnect trong thế giới AI/ML:
Thoạt nhìn khá đơn giản. Nhưng phía sau là cả một cuộc tái định nghĩa Data Center Networking.
1. Speed matters — Tốc độ vẫn là vua
Điều đầu tiên cần hiểu: AI cluster là cỗ máy tạo traffic east-west khổng lồ.
Khác với enterprise network truyền thống, nơi phần lớn traffic đi theo mô hình north-south:
Client → Application → Server
AI training cluster hoạt động khác hoàn toàn:
GPU ↔ GPU
GPU ↔ GPU memory
Node ↔ Node
Storage ↔ Compute
Traffic liên tục chạy ngang trong fabric.
Ví dụ:
Một mô hình LLM lớn có thể huấn luyện trên:
Trong quá trình training, gradient synchronization diễn ra liên tục.
Nếu interconnect chậm:
GPU sẽ phải… ngồi chờ nhau.
Đây là thảm họa vì GPU là tài nguyên cực kỳ đắt.
Một GPU AI cao cấp có thể tốn hàng chục nghìn USD.
Nếu GPU idle chỉ vì network bottleneck, chi phí đội lên rất nhanh.
Đó là lý do slide nhấn mạnh:
Interfaces: 800 GbE → 1.6 TbE
Vì sao 800GbE chưa đủ?
400GbE từng được xem là rất lớn.
Nhưng AI cluster hiện nay khiến con số đó trở nên bình thường.
Ví dụ:
Một GPU server 8 GPU có thể cần:
Khi scale lên vài trăm node:
fabric throughput tăng khủng khiếp.
AI workload rất nhạy với:
Không giống traffic web thông thường.
SERDES đang bước vào thế hệ mới
Slide có dòng:
SERDES / λ 100 Gb/s → 200 Gb/s
SERDES = Serializer/Deserializer
Hiểu đơn giản:
đây là công nghệ chuyển dữ liệu tốc độ cao giữa chip và interface.
Ví dụ:
Switch ASIC muốn đẩy traffic ra cổng 800G.
Nếu mỗi lane chỉ hỗ trợ 100G:
800G cần 8 lane.
Nếu mỗi lane hỗ trợ 200G:
800G chỉ cần 4 lane.
Điều này mang lại lợi ích rất lớn:
Đây là nền tảng để đi tới:
1.6 TbE Ethernet
2. Power matters — Kẻ thù mới là điện năng
Đây là phần dân networking truyền thống thường đánh giá thấp.
Ngày xưa ta hỏi:
“Switch throughput bao nhiêu?”
Bây giờ câu hỏi là:
“Switch đó ăn bao nhiêu điện?”
Watt per Gigabit trở thành KPI chiến lược
AI data center có thể chứa:
Nếu mỗi component tăng thêm vài watt:
chi phí điện bùng nổ.
Ví dụ:
Nếu 1 transceiver tăng thêm 5W.
Nhân với 2000 optics:
= 10,000W
Chỉ riêng optics.
Chưa tính:
AI data center không chỉ bị giới hạn bởi budget.
Nó bị giới hạn bởi:
power envelope.
Vì sao copper cables quay trở lại?
Slide ghi:
Copper Cables
Điều này khá thú vị.
Trong DC networking, optical thường được yêu thích vì:
Nhưng AI rack scale-out thay đổi bài toán.
Nếu thiết bị nằm gần nhau:
Copper DAC có lợi thế:
Với AI cluster mật độ cao, điều này cực kỳ hấp dẫn.
Linear Pluggable optics là gì?
Slide đề cập:
Linear pluggable
Đây là xu hướng rất đáng chú ý.
Optical transceiver truyền thống có DSP tích hợp.
DSP giúp:
Nhưng DSP cũng:
Linear pluggable loại bỏ phần DSP phức tạp.
Lợi ích:
Trong AI cluster lớn, đây là lợi ích rất thực tế.
3. Solution integration matters — Networking không còn đứng một mình
Đây mới là thay đổi lớn nhất.
Networking không còn là một silo độc lập.
Slide liệt kê:
Điều này nói lên tất cả.
Rack density tăng khủng khiếp
Enterprise rack truyền thống:
5–15 kW/rack
AI rack hiện đại:
50–100 kW
thậm chí cao hơn.
Một số thiết kế bleeding-edge:
100–150 kW+
Lúc này networking bị ảnh hưởng trực tiếp.
Không thể chỉ hỏi:
“Switch đặt ở đâu?”
Mà phải hỏi:
Switch density trở thành vấn đề vật lý
AI fabric yêu cầu:
rất nhiều high-speed ports.
Ví dụ:
64-port 800G switch
Nghe đẹp.
Nhưng thực tế:
Thiết kế rack không tốt:
hiệu năng sẽ giảm hoặc thiết bị throttling.
Liquid cooling không còn là chuyện của server team
Ngày xưa cooling chủ yếu là CRAC/air cooling.
AI era:
air cooling bắt đầu đuối.
GPU sinh nhiệt khổng lồ.
Switch high-density cũng rất nóng.
Liquid cooling trở thành thực tế.
Điều này buộc networking engineer phải hiểu:
Góc nhìn chiến lược cho kỹ sư mạng
Nếu bạn đang làm CCNA/CCNP/CCIE và nghĩ:
“AI là chuyện của data scientist.”
Thực tế không phải vậy.
AI infrastructure cần networking hơn bao giờ hết.
Nhưng networking ở đây không còn chỉ là:
Mà là:
Kết luận
Slide này có thể tóm gọn bằng một câu:
AI đang biến networking từ bài toán packet forwarding thành bài toán hệ thống tổng thể.
Ngày xưa:
“Có đủ bandwidth không?”
Bây giờ:
“Có đủ bandwidth, đủ điện, đủ cooling, đủ tích hợp hệ thống không?”
Đó mới là networking trong kỷ nguyên AI.
Nếu bạn là một kỹ sư mạng truyền thống, nhiều khả năng bạn đã quen với tư duy thiết kế quen thuộc:
Cần nhiều hiệu năng hơn? → tăng bandwidth.
10G lên 40G.
40G lên 100G.
100G lên 400G.
Trong nhiều năm, đó là cách ngành networking vận hành.
Nhưng AI đang thay đổi hoàn toàn luật chơi.
Slide này tóm gọn rất đúng ba ưu tiên lớn của hạ tầng interconnect trong thế giới AI/ML:
- Speed matters
- Power matters
- Solution integration matters
Thoạt nhìn khá đơn giản. Nhưng phía sau là cả một cuộc tái định nghĩa Data Center Networking.
1. Speed matters — Tốc độ vẫn là vua
Điều đầu tiên cần hiểu: AI cluster là cỗ máy tạo traffic east-west khổng lồ.
Khác với enterprise network truyền thống, nơi phần lớn traffic đi theo mô hình north-south:
Client → Application → Server
AI training cluster hoạt động khác hoàn toàn:
GPU ↔ GPU
GPU ↔ GPU memory
Node ↔ Node
Storage ↔ Compute
Traffic liên tục chạy ngang trong fabric.
Ví dụ:
Một mô hình LLM lớn có thể huấn luyện trên:
- 256 GPU
- 512 GPU
- 1024 GPU
- thậm chí nhiều hơn
Trong quá trình training, gradient synchronization diễn ra liên tục.
Nếu interconnect chậm:
GPU sẽ phải… ngồi chờ nhau.
Đây là thảm họa vì GPU là tài nguyên cực kỳ đắt.
Một GPU AI cao cấp có thể tốn hàng chục nghìn USD.
Nếu GPU idle chỉ vì network bottleneck, chi phí đội lên rất nhanh.
Đó là lý do slide nhấn mạnh:
Interfaces: 800 GbE → 1.6 TbE
Vì sao 800GbE chưa đủ?
400GbE từng được xem là rất lớn.
Nhưng AI cluster hiện nay khiến con số đó trở nên bình thường.
Ví dụ:
Một GPU server 8 GPU có thể cần:
- 8 x 400G
hoặc - nhiều uplink 800G
Khi scale lên vài trăm node:
fabric throughput tăng khủng khiếp.
AI workload rất nhạy với:
- latency
- jitter
- congestion
- packet loss
Không giống traffic web thông thường.
SERDES đang bước vào thế hệ mới
Slide có dòng:
SERDES / λ 100 Gb/s → 200 Gb/s
SERDES = Serializer/Deserializer
Hiểu đơn giản:
đây là công nghệ chuyển dữ liệu tốc độ cao giữa chip và interface.
Ví dụ:
Switch ASIC muốn đẩy traffic ra cổng 800G.
Nếu mỗi lane chỉ hỗ trợ 100G:
800G cần 8 lane.
Nếu mỗi lane hỗ trợ 200G:
800G chỉ cần 4 lane.
Điều này mang lại lợi ích rất lớn:
- ít lane hơn
- PCB đơn giản hơn
- giảm power
- giảm heat
- tăng port density
Đây là nền tảng để đi tới:
1.6 TbE Ethernet
2. Power matters — Kẻ thù mới là điện năng
Đây là phần dân networking truyền thống thường đánh giá thấp.
Ngày xưa ta hỏi:
“Switch throughput bao nhiêu?”
Bây giờ câu hỏi là:
“Switch đó ăn bao nhiêu điện?”
Watt per Gigabit trở thành KPI chiến lược
AI data center có thể chứa:
- hàng trăm switch
- hàng nghìn optics
- hàng nghìn NIC
Nếu mỗi component tăng thêm vài watt:
chi phí điện bùng nổ.
Ví dụ:
Nếu 1 transceiver tăng thêm 5W.
Nhân với 2000 optics:
= 10,000W
Chỉ riêng optics.
Chưa tính:
- switch ASIC
- GPU servers
- storage
- cooling
AI data center không chỉ bị giới hạn bởi budget.
Nó bị giới hạn bởi:
power envelope.
Vì sao copper cables quay trở lại?
Slide ghi:
Copper Cables
Điều này khá thú vị.
Trong DC networking, optical thường được yêu thích vì:
- khoảng cách xa
- EMI immunity
- hiệu năng cao
Nhưng AI rack scale-out thay đổi bài toán.
Nếu thiết bị nằm gần nhau:
- cùng rack
- adjacent rack
Copper DAC có lợi thế:
- rẻ hơn
- ít power hơn
- latency thấp
- ít complexity
Với AI cluster mật độ cao, điều này cực kỳ hấp dẫn.
Linear Pluggable optics là gì?
Slide đề cập:
Linear pluggable
Đây là xu hướng rất đáng chú ý.
Optical transceiver truyền thống có DSP tích hợp.
DSP giúp:
- signal conditioning
- retiming
- error correction
Nhưng DSP cũng:
- tiêu tốn điện
- sinh nhiệt
- tăng cost
Linear pluggable loại bỏ phần DSP phức tạp.
Lợi ích:
- power thấp hơn
- latency thấp hơn
- chi phí tốt hơn
Trong AI cluster lớn, đây là lợi ích rất thực tế.
3. Solution integration matters — Networking không còn đứng một mình
Đây mới là thay đổi lớn nhất.
Networking không còn là một silo độc lập.
Slide liệt kê:
- Rack density
- Switch density
- Liquid cooling
Điều này nói lên tất cả.
Rack density tăng khủng khiếp
Enterprise rack truyền thống:
5–15 kW/rack
AI rack hiện đại:
50–100 kW
thậm chí cao hơn.
Một số thiết kế bleeding-edge:
100–150 kW+
Lúc này networking bị ảnh hưởng trực tiếp.
Không thể chỉ hỏi:
“Switch đặt ở đâu?”
Mà phải hỏi:
- nguồn điện rack còn đủ không?
- airflow có ổn không?
- cable management ra sao?
- thermal hotspots ở đâu?
Switch density trở thành vấn đề vật lý
AI fabric yêu cầu:
rất nhiều high-speed ports.
Ví dụ:
64-port 800G switch
Nghe đẹp.
Nhưng thực tế:
- power draw rất cao
- optics rất nóng
- cable cực dày
- airflow cực khó
Thiết kế rack không tốt:
hiệu năng sẽ giảm hoặc thiết bị throttling.
Liquid cooling không còn là chuyện của server team
Ngày xưa cooling chủ yếu là CRAC/air cooling.
AI era:
air cooling bắt đầu đuối.
GPU sinh nhiệt khổng lồ.
Switch high-density cũng rất nóng.
Liquid cooling trở thành thực tế.
Điều này buộc networking engineer phải hiểu:
- thermal constraints
- rack mechanics
- power distribution
- facility integration
Góc nhìn chiến lược cho kỹ sư mạng
Nếu bạn đang làm CCNA/CCNP/CCIE và nghĩ:
“AI là chuyện của data scientist.”
Thực tế không phải vậy.
AI infrastructure cần networking hơn bao giờ hết.
Nhưng networking ở đây không còn chỉ là:
- VLAN
- STP
- OSPF
- BGP
Mà là:
- high-speed Ethernet
- RDMA
- RoCEv2
- congestion control
- PFC/ECN
- AI fabric design
- optics engineering
- power engineering
- thermal awareness
Kết luận
Slide này có thể tóm gọn bằng một câu:
AI đang biến networking từ bài toán packet forwarding thành bài toán hệ thống tổng thể.
Ngày xưa:
“Có đủ bandwidth không?”
Bây giờ:
“Có đủ bandwidth, đủ điện, đủ cooling, đủ tích hợp hệ thống không?”
Đó mới là networking trong kỷ nguyên AI.