Hoạt động 3: Xem xét về lưu lượng mạng khi tích hợp AI và HPC

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 10745
- Share
- Tweet
#1

Hoạt động 3: Xem xét về lưu lượng mạng khi tích hợp AI và HPC

10-08-2025, 02:28 PM

Hoạt động 3: Xem xét về lưu lượng mạng khi tích hợp AI và HPC

Công ty giao dịch của bạn hiện đã sở hữu một mạng back-end tối ưu cho AI workload và mọi thứ đang vận hành trơn tru. Hiệu năng cao đến mức nhóm HPC (High-Performance Computing) cũng phải chú ý.

Khi so sánh, tốc độ và thông lượng dữ liệu của mạng AI vượt xa trung tâm dữ liệu HPC cũ, vốn đã đến lúc nâng cấp. Vì ấn tượng với hiệu suất này, nhóm HPC đang tính chuyển máy chủ của họ vào cùng AI Data Center để tận dụng hạ tầng hiện có.

Tuy nhiên, vấn đề đặt ra là: AI và HPC là hai loại workload rất “khó chiều” — nếu không quản lý hợp lý, hiệu năng cả hai bên đều sẽ giảm.
Hai yếu tố cần cân nhắc khi tích hợp AI và HPC trên cùng mạng
Ưu tiên lưu lượng HPC bằng QoS
Đảm bảo dữ liệu HPC có độ trễ thấp nhất, không bị xếp hàng sau lưu lượng AI trong hàng đợi mạng.

QoS giúp phân loại, đánh dấu và ưu tiên gói tin đúng cách, đặc biệt quan trọng trong môi trường tính toán phân tán.

Sử dụng PFC (Priority Flow Control) cho cả AI và HPC
Cả hai workload đều yêu cầu truyền tải lossless.

PFC giúp tạm dừng lưu lượng theo mức ưu tiên khi có tắc nghẽn, ngăn mất gói — điều rất quan trọng cho RoCEv2.

Vì sao cả PFC và ECN đều cần thiết cho AI workload trong môi trường RoCEv2?
PFC: Đảm bảo mạng lossless bằng cách tạm dừng (pause) lưu lượng khi có tắc nghẽn.

ECN (Explicit Congestion Notification): Đánh dấu gói tin khi phát hiện tắc nghẽn sớm, giúp thiết bị điều chỉnh tốc độ gửi trước khi tình trạng nghẽn nghiêm trọng xảy ra.

Kết hợp cả hai giúp:
Tránh mất gói (do PFC).

Giảm số lần phải tạm dừng traffic (nhờ ECN), từ đó hạn chế độ trễ.

💡 Bài học rút ra:
Khi triển khai hạ tầng AI/ML với GPU mạnh cho LLM, hãy bắt đầu nhỏ và mở rộng dần.

Sử dụng mạng back-end chuyên biệt cho AI để tránh quá tải mạng doanh nghiệp.

Tách biệt front-end và back-end, đồng thời cân nhắc Ethernet vs InfiniBand dựa trên băng thông, chi phí và độ trễ.

Với RoCEv2, ECN + PFC là bộ đôi quan trọng để quản lý tắc nghẽn và đảm bảo truyền tải lossless.

Khi tích hợp AI với non-AI workload (HPC), phải có ưu tiên lưu lượng và kiểm soát độ trễ hợp lý.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None