😄 Nhìn từ phía sau đúng là rất khó liên tưởng đây là thứ đang "trò chuyện" với chúng ta mỗi ngày.
Nếu đăng mạng xã hội, bạn có thể viết theo phong cách vui nhưng vẫn đúng về mặt kỹ thuật như sau:
Nếu đăng mạng xã hội, bạn có thể viết theo phong cách vui nhưng vẫn đúng về mặt kỹ thuật như sau:
Đây là "vẻ ngoài gớm ghiếc" của những con AI mà chúng ta vẫn dùng mỗi ngày. 😄
Không có khuôn mặt, không có đôi mắt, cũng chẳng có giọng nói. Chỉ là một chiếc máy chủ nặng vài trăm kg, đầy quạt gió, nguồn điện và hàng chục cổng mạng tốc độ cao.
Đây là mặt sau của Cisco UCS C885a M8, một máy chủ AI được thiết kế để chạy các mô hình ngôn ngữ lớn (LLM).
Điều thú vị là phía sau chiếc máy này không chỉ có một vài cổng Ethernet như máy chủ thông thường.
Nó được chia thành nhiều mạng riêng biệt:
Điều này cũng cho thấy một sự thật thú vị:
Trong AI hiện đại, bài toán không chỉ là GPU mạnh đến đâu, mà còn là làm thế nào để dữ liệu được "nuôi" GPU đủ nhanh.
Một GPU NVIDIA B200 hay H200 có thể xử lý hàng nghìn TFLOPS, nhưng nếu mạng hoặc hệ thống lưu trữ không theo kịp, GPU sẽ phải ngồi chờ dữ liệu. Đó là lý do các AI Cluster hiện đại sử dụng mạng 400G, 800G, RDMA, NVLink và NVSwitch để loại bỏ các "nút thắt cổ chai".
Có thể nói vui rằng: phía trước AI là một chatbot rất lịch sự, nhưng phía sau lại là cả một "quái vật" gồm máy chủ, GPU, mạng tốc độ cao và hệ thống lưu trữ đang hoạt động hết công suất để tạo ra từng câu trả lời mà chúng ta nhận được.
Không có khuôn mặt, không có đôi mắt, cũng chẳng có giọng nói. Chỉ là một chiếc máy chủ nặng vài trăm kg, đầy quạt gió, nguồn điện và hàng chục cổng mạng tốc độ cao.
Đây là mặt sau của Cisco UCS C885a M8, một máy chủ AI được thiết kế để chạy các mô hình ngôn ngữ lớn (LLM).
Điều thú vị là phía sau chiếc máy này không chỉ có một vài cổng Ethernet như máy chủ thông thường.
Nó được chia thành nhiều mạng riêng biệt:
- 8 cổng 400G dành cho GPU, tạo thành mạng Backend để các GPU trao đổi dữ liệu với nhau trong quá trình huấn luyện AI.
- 2 cổng 400G cho CPU, kết nối tới Front-End Network hoặc Storage Network để truy cập dữ liệu huấn luyện.
- 2 cổng 10G Management dùng để quản trị hệ thống.
- 3 cổng BMC 1G cho quản lý ngoài băng (Out-of-Band Management), ngay cả khi máy chủ đang tắt hoặc hệ điều hành gặp sự cố.
Điều này cũng cho thấy một sự thật thú vị:
Trong AI hiện đại, bài toán không chỉ là GPU mạnh đến đâu, mà còn là làm thế nào để dữ liệu được "nuôi" GPU đủ nhanh.
Một GPU NVIDIA B200 hay H200 có thể xử lý hàng nghìn TFLOPS, nhưng nếu mạng hoặc hệ thống lưu trữ không theo kịp, GPU sẽ phải ngồi chờ dữ liệu. Đó là lý do các AI Cluster hiện đại sử dụng mạng 400G, 800G, RDMA, NVLink và NVSwitch để loại bỏ các "nút thắt cổ chai".
Có thể nói vui rằng: phía trước AI là một chatbot rất lịch sự, nhưng phía sau lại là cả một "quái vật" gồm máy chủ, GPU, mạng tốc độ cao và hệ thống lưu trữ đang hoạt động hết công suất để tạo ra từng câu trả lời mà chúng ta nhận được.