Từ Một Máy Chủ Đến Hạ Tầng AI Quy Mô Lớn

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 10224
- Share
- Tweet
#1

Từ Một Máy Chủ Đến Hạ Tầng AI Quy Mô Lớn

10-08-2025, 09:15 AM

Từ Một Máy Chủ Đến Hạ Tầng AI Quy Mô Lớn

Ban đầu, công ty giao dịch của bạn áp dụng mô hình ngôn ngữ lớn (LLM) cho các tác vụ đơn giản như soạn email và đề nghị gửi khách hàng. Kết quả rất khả quan: hiệu suất làm việc tăng, dịch vụ khách hàng cải thiện.

Thành công này nhanh chóng mở đường cho các ứng dụng LLM quan trọng hơn — đặc biệt là hỗ trợ giao dịch. Mô hình giờ đây phân tích khối lượng dữ liệu thị trường khổng lồ, đưa ra những insight giúp trader ra quyết định nhanh và chính xác hơn, từ đó cải thiện chiến lược và lợi nhuận.

Nhằm đáp ứng nhu cầu tính toán tăng mạnh, công ty quyết định nâng cấp từ hệ thống cũ lên 10 máy chủ rack Cisco UCS C240 M7, mỗi máy trang bị 2 GPU NVIDIA A100-80. Hệ thống mới sẽ cung cấp sức mạnh cần thiết để mở rộng khối lượng công việc AI và phục vụ giai đoạn tăng trưởng tiếp theo.
Vấn Đề Khi Mở Rộng AI Trên Mạng Doanh Nghiệp

Các GPU mới được kết nối vào mạng Cisco Catalyst hiện tại. Tuy nhiên, mạng này vốn được thiết kế cho lưu lượng doanh nghiệp, không tối ưu cho khối lượng công việc AI, nên bắt đầu xuất hiện:
Độ trễ tăng, ảnh hưởng tới tốc độ truyền dữ liệu.

Băng thông không đủ, gây nghẽn và giảm hiệu suất huấn luyện.

Khó quản lý luồng lưu lượng phức tạp do thiếu tính năng định tuyến tối ưu cho AI.

Điều này khiến thời gian chờ tăng, huấn luyện bị gián đoạn, và GPU phải… ngồi chờ dữ liệu.
Phân Biệt Mạng Front-End và Back-End Cho AI

Giải pháp là triển khai mạng phụ trợ (back-end) chuyên dụng song song với mạng giao diện (front-end):
Mạng back-end: tối ưu cho giao tiếp GPU-to-GPU với độ trễ thấp, không mất gói; sử dụng các kỹ thuật như PFC (Priority Flow Control) và ECN (Explicit Congestion Notification).

Mạng front-end: phục vụ lưu lượng người dùng, lưu trữ, quản lý; không yêu cầu tối ưu đặc biệt cho tính toán AI.

Việc tách biệt này ngăn lưu lượng thông thường làm ảnh hưởng đến traffic AI cần băng thông cao – latency thấp.
Ethernet vs InfiniBand Cho AI

Khi thiết kế mạng AI chuyên dụng, lựa chọn giữa Ethernet và InfiniBand là then chốt:
InfiniBand: băng thông cao hơn, thường dùng trong môi trường HPC và AI lớn.

Ethernet: chi phí thấp hơn, dễ tích hợp với hạ tầng mạng doanh nghiệp sẵn có.

Quyết định phụ thuộc vào ngân sách, kỹ năng đội ngũ, và yêu cầu hiệu năng.
Mở Rộng Mạng Spine-Leaf Với Cisco Nexus 9000

Hệ thống mới sử dụng kiến trúc spine-leaf:
Thêm leaf switch → tăng số lượng cổng kết nối máy chủ.

Thêm spine switch → tăng thông lượng tổng thể của mạng.

Cấu trúc này đảm bảo khả năng mở rộng tuyến tính và độ trễ nhất quán giữa các nút.
Khi GPU Phải Đợi Mạng

Dấu hiệu mạng AI chưa tối ưu:
GPU nhàn rỗi do tắc nghẽn, mất gói (tail drop).

Huấn luyện phân tán chậm do đồng bộ hóa giữa GPU bị trễ.

Nếu điều này xảy ra, nghĩa là bạn đang lãng phí sức mạnh phần cứng.
ROCEv2 – Giải Pháp Giảm Độ Trễ Mạng AI

RDMA over Converged Ethernet v2 (ROCEv2) cho phép GPU trao đổi dữ liệu trực tiếp qua Ethernet với độ trễ cực thấp, nhờ:
ECN: đánh dấu gói khi có tắc nghẽn, yêu cầu giảm tốc độ gửi.

PFC: tạm dừng lưu lượng để tránh mất gói khi mạng bận.

Có thể vận hành mà không cần PFC/ECN, nhưng sẽ dễ mất gói và giảm hiệu năng khi tải nặng.

Kết hợp đúng PFC + ECN + ROCEv2, mạng AI sẽ đạt được hiệu suất cao và ổn định.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None