Trong các cụm AI/ML hiện đại, vấn đề độ trễ thấp và tránh nghẽn mạng là yếu tố sống còn. Nếu packet bị rớt, training job có thể chậm đi hàng giờ. Cisco Nexus 9000 Series Switches kết hợp với Nexus Dashboard Insights (NDI) chính là bộ đôi giúp các kỹ sư mạng theo dõi và tối ưu Lossless Ethernet Fabric cho RoCEv2. Vì sao cần Visibility?
Khác với mạng enterprise thông thường, AI/ML fabric có:
Đây là lúc cần tới congestion visibility. Cisco Nexus Dashboard Insights làm gì?
NDI thu thập telemetry trực tiếp từ ASIC của switch, bao gồm:
Sau đó, NDI tính toán các chỉ số (score):
Khi có bất thường (anomaly), NDI sẽ cảnh báo ngay để kỹ sư mạng kịp thời xử lý. Lợi ích thực tế
👉 Câu hỏi thường gặp: NDI có thể monitor những score nào?
Đáp án:
💡 Góc nhìn thực chiến:
Trong hạ tầng AI/ML, “mất một packet” không chỉ là chuyện nhỏ — nó có thể kéo lùi hàng nghìn GPU core. Vì vậy, việc bật telemetry + Nexus Dashboard Insights không còn là tùy chọn, mà là nền tảng để xây dựng AI Fabric chuẩn Lossless Ethernet.
Khác với mạng enterprise thông thường, AI/ML fabric có:
- Dữ liệu khổng lồ truyền song song giữa GPU → GPU.
- Yêu cầu lossless: chỉ cần một packet drop cũng khiến GPU job phải retransmit, gây trễ lớn.
- Microburst traffic: luồng “vòi voi” (elephant flow) và “chuột chạy” (mice flow) xuất hiện đồng thời.
Đây là lúc cần tới congestion visibility. Cisco Nexus Dashboard Insights làm gì?
NDI thu thập telemetry trực tiếp từ ASIC của switch, bao gồm:
- Latency, utilization, packet drops.
- Thống kê ECN (Explicit Congestion Notification) và PFC (Priority Flow Control).
- Flow table chi tiết (5-tuple, queue info, burst measurements).
Sau đó, NDI tính toán các chỉ số (score):
- Congestion score → phản ánh mức nghẽn thực tế trong fabric.
- Latency score → so sánh độ trễ hiện tại với baseline.
- Drops → tỉ lệ packet bị rớt so với đã gửi.
Khi có bất thường (anomaly), NDI sẽ cảnh báo ngay để kỹ sư mạng kịp thời xử lý. Lợi ích thực tế
- Tuning lossless fabric: Giúp admin chỉnh ngưỡng WRED/AFD để loại bỏ packet drops trong điều kiện bình thường.
- Kích hoạt PFC: đảm bảo hành vi lossless hoàn toàn.
- Traffic Analytics: báo cáo dịch vụ nào “ngốn băng thông”, endpoint nào gây congestion, đồng thời cho phép troubleshoot theo flow.
👉 Câu hỏi thường gặp: NDI có thể monitor những score nào?
Đáp án:
- Congestion score
- Latency score ✅✅
💡 Góc nhìn thực chiến:
Trong hạ tầng AI/ML, “mất một packet” không chỉ là chuyện nhỏ — nó có thể kéo lùi hàng nghìn GPU core. Vì vậy, việc bật telemetry + Nexus Dashboard Insights không còn là tùy chọn, mà là nền tảng để xây dựng AI Fabric chuẩn Lossless Ethernet.