QoS - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11497
- Share
- Tweet
#1

QoS

02-06-2026, 08:29 PM

QoS trong hạ tầng AI và Storage: Không phải mọi gói tin đều được đối xử như nhau

Hình trên mô tả một mô hình QoS (Quality of Service) đơn giản hóa thường được sử dụng trong các mạng Data Center hiện đại, đặc biệt là các môi trường AI, HPC, Storage và Cloud.

QoS hoạt động theo 4 bước chính:

Classification (Phân loại)
Thiết bị mạng nhận diện loại lưu lượng dựa trên các trường như Ethernet CoS hoặc IP DSCP.

Ví dụ:
RoCE traffic

NVMe/TCP traffic

iSCSI traffic

Traffic quản trị

Traffic ứng dụng thông thường

Sau khi nhận diện, gói tin sẽ được gắn nhãn ưu tiên.

Queueing (Đưa vào hàng đợi)

Thay vì tất cả gói tin tranh nhau cùng một đường truyền, switch tạo nhiều hàng đợi khác nhau.

Trong ví dụ này có 8 lớp:
Class 1: Traffic ưu tiên cao (Priority)

Class 2: Business Critical

Class 3: FCoE (lossless)

Class 4: iSCSI và NVMe/TCP

Class 5: RoCE (lossless)

Class 6: Management

Class 7: Bulk Data

Class 8: Best Effort

Điều này giúp lưu lượng AI và Storage không bị ảnh hưởng bởi các ứng dụng thông thường.

Queue Management (Quản lý hàng đợi)

Khi hàng đợi bắt đầu đầy, switch phải quyết định:
Giữ lại gói tin

Đánh dấu ECN

Hoặc loại bỏ gói tin

Một số cơ chế phổ biến:

WRED (Weighted Random Early Detection)

Switch chủ động loại bỏ một phần gói tin trước khi queue đầy hoàn toàn để tránh nghẽn.

AFD (Adaptive Flow Distribution)

Được dùng nhiều trong mạng AI Ethernet hiện đại để phát hiện các flow "quá lớn" và giảm nguy cơ một luồng chiếm hết băng thông.

ECN (Explicit Congestion Notification)

Thay vì drop packet, switch đánh dấu gói tin để máy chủ biết rằng mạng đang bị nghẽn.

Đây là cơ chế cực kỳ quan trọng trong RoCEv2.

Scheduling (Lập lịch truyền gói)

Cuối cùng, switch phải quyết định gói tin nào được gửi ra cổng trước.

Các thuật toán thường dùng:
Strict Priority

WRR (Weighted Round Robin)

DWRR (Deficit Weighted Round Robin)

Ví dụ:

RoCE có thể được ưu tiên cao nhất.

iSCSI và NVMe/TCP nhận tỷ lệ băng thông cố định.

Best Effort chỉ sử dụng phần băng thông còn lại.
Tại sao QoS lại đặc biệt quan trọng trong AI Data Center?

Trong Data Center truyền thống:
Một vài gói bị mất thường không phải vấn đề lớn.

TCP sẽ truyền lại.

Nhưng trong AI Training Cluster:
Hàng nghìn GPU phải đồng bộ dữ liệu liên tục.

All-Reduce yêu cầu độ trễ cực thấp.

Chỉ một GPU chậm cũng có thể làm chậm cả job huấn luyện.

Vì vậy các mạng AI hiện đại thường:
Dành queue riêng cho RoCE

Sử dụng ECN thay vì drop packet

Kết hợp PFC (Priority Flow Control)

Sử dụng AFD hoặc các cơ chế chống congestion tiên tiến

Mục tiêu là xây dựng một lossless Ethernet fabric cho lưu lượng AI, trong khi vẫn phục vụ đồng thời các dịch vụ như NVMe/TCP, iSCSI, Management và Business Applications trên cùng một hạ tầng mạng.

Nói ngắn gọn, QoS chính là "người điều phối giao thông" của Data Center. Khi mạng bắt đầu đông đúc, QoS quyết định ai được đi trước, ai phải chờ, ai được bảo vệ khỏi mất gói và ai phải nhường đường để đảm bảo các ứng dụng quan trọng như AI Training và Storage luôn hoạt động ổn định.
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None