Từ Fibre Channel đến RoCEv2: Bức Tranh Toàn Cảnh Về Các Giao Thức Lưu Trữ Trong Data Center Hiện Đại
Một trong những điều khiến nhiều kỹ sư mạng và hệ thống cảm thấy khó hiểu khi bước vào lĩnh vực Storage Networking là có quá nhiều thuật ngữ xuất hiện cùng lúc:
Fibre Channel, FCoE, FCIP, iSCSI, NVMe-oF, SMB, NFS, RoCE, RoCEv2, iWARP, InfiniBand...
Nhìn vào sơ đồ trên, chúng ta có thể thấy toàn bộ hệ sinh thái lưu trữ hiện đại thực chất được xây dựng từ bốn thành phần chính:
Hiểu được mối quan hệ này sẽ giúp chúng ta không còn bị "ngợp" trước hàng loạt thuật ngữ trong thế giới Storage và AI Infrastructure.
Bước 1: Các loại lưu trữ
Từ góc nhìn ứng dụng, dữ liệu thường được truy cập theo ba mô hình chính:
Block Storage
Đây là kiểu lưu trữ truyền thống của SAN.
Máy chủ nhìn thấy thiết bị lưu trữ như một ổ đĩa thô (raw disk).
Các giao thức phổ biến:
Ví dụ:
File Storage
Dữ liệu được truy cập dưới dạng thư mục và tập tin.
Các giao thức phổ biến:
Ví dụ:
Object Storage
Dữ liệu được lưu dưới dạng đối tượng (Object).
Ví dụ:
Mô hình này đặc biệt phổ biến trong AI vì có khả năng lưu trữ khối lượng dữ liệu huấn luyện cực lớn.
Bước 2: Giao thức lưu trữ
Sau khi ứng dụng tạo yêu cầu đọc hoặc ghi dữ liệu, giao thức lưu trữ sẽ đóng gói yêu cầu đó.
SCSI
Là giao thức lâu đời nhất trong thế giới SAN.
Nhiều công nghệ ngày nay thực chất vẫn đang vận chuyển lệnh SCSI bằng nhiều phương thức khác nhau.
Ví dụ:
đều đang vận chuyển các lệnh SCSI.
NVMe
Được thiết kế cho SSD và Flash Storage hiện đại.
Ưu điểm:
Ngày nay NVMe đang dần thay thế SCSI trong các hệ thống AI Storage hiệu năng cao.
Bước 3: Giao thức vận chuyển
Đây là nơi các công nghệ bắt đầu phân hóa mạnh.
Fibre Channel
Con đường truyền thống của SAN.
Đặc điểm:
Nhiều doanh nghiệp lớn vẫn sử dụng Fibre Channel cho các hệ thống Mission Critical.
FCoE
Fibre Channel over Ethernet.
Ý tưởng:
Thay vì xây dựng hai mạng riêng biệt:
chúng ta hợp nhất thành một mạng Ethernet duy nhất.
FCoE đóng gói Fibre Channel Frame vào Ethernet Frame.
Tuy nhiên FCoE yêu cầu Ethernet Lossless nên triển khai khá phức tạp.
FCIP
Fibre Channel over IP.
Được dùng để kéo dài SAN qua khoảng cách xa.
Ví dụ:
FC Frame được đóng gói vào TCP/IP.
iSCSI
Có lẽ là giao thức SAN phổ biến nhất trong môi trường doanh nghiệp vừa và nhỏ.
Cấu trúc:
SCSI → TCP → IP → Ethernet
Ưu điểm:
NVMe/TCP
Phiên bản hiện đại hơn của iSCSI.
Cấu trúc:
NVMe → TCP → IP → Ethernet
Ưu điểm:
Đang trở thành lựa chọn rất hấp dẫn trong các Data Center mới.
Bước 4: RDMA và AI Storage
Đây là phần đang thay đổi toàn bộ ngành công nghiệp.
Các cụm GPU hiện đại yêu cầu:
Vì vậy RDMA xuất hiện.
iWARP
RDMA chạy trên TCP.
Ưu điểm:
Nhược điểm:
RoCE
RDMA chạy trên Ethernet Layer 2.
Không định tuyến được.
Hiện nay ít được triển khai.
RoCEv2
RDMA chạy trên UDP/IP.
Đây là công nghệ đang được sử dụng rộng rãi nhất trong các AI Factory hiện đại.
Cấu trúc:
RDMA Verbs → InfiniBand Transport → UDP → IP → Ethernet
Ưu điểm:
InfiniBand
Là RDMA nguyên bản.
Không sử dụng Ethernet.
Đặc điểm:
Các siêu máy tính và cụm GPU hàng đầu thế giới vẫn đang sử dụng InfiniBand.
Xu hướng mới trong AI Data Center
Nếu nhìn vào các AI Cluster hiện đại của NVIDIA, Cisco, Arista, Microsoft hay Meta, chúng ta thấy ba xu hướng rất rõ ràng:
Thứ nhất, Fibre Channel vẫn tiếp tục tồn tại trong các hệ thống lưu trữ doanh nghiệp truyền thống.
Thứ hai, NVMe/TCP đang phát triển rất nhanh nhờ khả năng tận dụng hạ tầng Ethernet sẵn có.
Thứ ba, RoCEv2 đang trở thành giao thức chủ đạo cho AI Networking và AI Storage nhờ khả năng kết hợp giữa hiệu năng RDMA và tính mở rộng của mạng IP.
Đó cũng là lý do vì sao các kỹ sư hạ tầng AI ngày nay không chỉ cần hiểu Ethernet, TCP/IP hay SAN truyền thống, mà còn phải làm quen với các khái niệm mới như RDMA, RoCEv2, PFC, ECN, NVMe-oF và InfiniBand. Đây chính là nền tảng của thế hệ AI Data Center hiện đại.
Một trong những điều khiến nhiều kỹ sư mạng và hệ thống cảm thấy khó hiểu khi bước vào lĩnh vực Storage Networking là có quá nhiều thuật ngữ xuất hiện cùng lúc:
Fibre Channel, FCoE, FCIP, iSCSI, NVMe-oF, SMB, NFS, RoCE, RoCEv2, iWARP, InfiniBand...
Nhìn vào sơ đồ trên, chúng ta có thể thấy toàn bộ hệ sinh thái lưu trữ hiện đại thực chất được xây dựng từ bốn thành phần chính:
- Loại lưu trữ (Storage Type)
- Giao thức lưu trữ (Storage Protocol)
- Giao thức vận chuyển (Transport)
- Mạng truyền tải (Network)
Hiểu được mối quan hệ này sẽ giúp chúng ta không còn bị "ngợp" trước hàng loạt thuật ngữ trong thế giới Storage và AI Infrastructure.
Bước 1: Các loại lưu trữ
Từ góc nhìn ứng dụng, dữ liệu thường được truy cập theo ba mô hình chính:
Block Storage
Đây là kiểu lưu trữ truyền thống của SAN.
Máy chủ nhìn thấy thiết bị lưu trữ như một ổ đĩa thô (raw disk).
Các giao thức phổ biến:
- SCSI
- NVMe
Ví dụ:
- VMware Datastore
- Oracle Database
- Microsoft SQL Server
File Storage
Dữ liệu được truy cập dưới dạng thư mục và tập tin.
Các giao thức phổ biến:
- NFS
- SMB/CIFS
Ví dụ:
- File Server
- Home Directory
- Shared Folder
Object Storage
Dữ liệu được lưu dưới dạng đối tượng (Object).
Ví dụ:
- Amazon S3
- MinIO
- Ceph Object Storage
Mô hình này đặc biệt phổ biến trong AI vì có khả năng lưu trữ khối lượng dữ liệu huấn luyện cực lớn.
Bước 2: Giao thức lưu trữ
Sau khi ứng dụng tạo yêu cầu đọc hoặc ghi dữ liệu, giao thức lưu trữ sẽ đóng gói yêu cầu đó.
SCSI
Là giao thức lâu đời nhất trong thế giới SAN.
Nhiều công nghệ ngày nay thực chất vẫn đang vận chuyển lệnh SCSI bằng nhiều phương thức khác nhau.
Ví dụ:
- Fibre Channel
- FCoE
- iSCSI
đều đang vận chuyển các lệnh SCSI.
NVMe
Được thiết kế cho SSD và Flash Storage hiện đại.
Ưu điểm:
- Độ trễ thấp
- Nhiều queue
- Hiệu năng cực cao
Ngày nay NVMe đang dần thay thế SCSI trong các hệ thống AI Storage hiệu năng cao.
Bước 3: Giao thức vận chuyển
Đây là nơi các công nghệ bắt đầu phân hóa mạnh.
Fibre Channel
Con đường truyền thống của SAN.
Đặc điểm:
- Lossless
- Độ trễ thấp
- Mạng riêng biệt
Nhiều doanh nghiệp lớn vẫn sử dụng Fibre Channel cho các hệ thống Mission Critical.
FCoE
Fibre Channel over Ethernet.
Ý tưởng:
Thay vì xây dựng hai mạng riêng biệt:
- Ethernet LAN
- Fibre Channel SAN
chúng ta hợp nhất thành một mạng Ethernet duy nhất.
FCoE đóng gói Fibre Channel Frame vào Ethernet Frame.
Tuy nhiên FCoE yêu cầu Ethernet Lossless nên triển khai khá phức tạp.
FCIP
Fibre Channel over IP.
Được dùng để kéo dài SAN qua khoảng cách xa.
Ví dụ:
- Kết nối hai Data Center
- SAN Replication
FC Frame được đóng gói vào TCP/IP.
iSCSI
Có lẽ là giao thức SAN phổ biến nhất trong môi trường doanh nghiệp vừa và nhỏ.
Cấu trúc:
SCSI → TCP → IP → Ethernet
Ưu điểm:
- Chi phí thấp
- Chạy trên Ethernet thông thường
- Không cần Fibre Channel
NVMe/TCP
Phiên bản hiện đại hơn của iSCSI.
Cấu trúc:
NVMe → TCP → IP → Ethernet
Ưu điểm:
- Hiệu năng tốt hơn iSCSI
- Không yêu cầu mạng RDMA
Đang trở thành lựa chọn rất hấp dẫn trong các Data Center mới.
Bước 4: RDMA và AI Storage
Đây là phần đang thay đổi toàn bộ ngành công nghiệp.
Các cụm GPU hiện đại yêu cầu:
- Latency cực thấp
- Throughput cực cao
- CPU overhead gần như bằng 0
Vì vậy RDMA xuất hiện.
iWARP
RDMA chạy trên TCP.
Ưu điểm:
- Không cần mạng lossless
Nhược điểm:
- Overhead TCP cao hơn
RoCE
RDMA chạy trên Ethernet Layer 2.
Không định tuyến được.
Hiện nay ít được triển khai.
RoCEv2
RDMA chạy trên UDP/IP.
Đây là công nghệ đang được sử dụng rộng rãi nhất trong các AI Factory hiện đại.
Cấu trúc:
RDMA Verbs → InfiniBand Transport → UDP → IP → Ethernet
Ưu điểm:
- Hỗ trợ Layer 3
- Hỗ trợ ECMP
- Mở rộng quy mô rất lớn
InfiniBand
Là RDMA nguyên bản.
Không sử dụng Ethernet.
Đặc điểm:
- Lossless
- Credit-based Flow Control
- Latency cực thấp
Các siêu máy tính và cụm GPU hàng đầu thế giới vẫn đang sử dụng InfiniBand.
Xu hướng mới trong AI Data Center
Nếu nhìn vào các AI Cluster hiện đại của NVIDIA, Cisco, Arista, Microsoft hay Meta, chúng ta thấy ba xu hướng rất rõ ràng:
Thứ nhất, Fibre Channel vẫn tiếp tục tồn tại trong các hệ thống lưu trữ doanh nghiệp truyền thống.
Thứ hai, NVMe/TCP đang phát triển rất nhanh nhờ khả năng tận dụng hạ tầng Ethernet sẵn có.
Thứ ba, RoCEv2 đang trở thành giao thức chủ đạo cho AI Networking và AI Storage nhờ khả năng kết hợp giữa hiệu năng RDMA và tính mở rộng của mạng IP.
Đó cũng là lý do vì sao các kỹ sư hạ tầng AI ngày nay không chỉ cần hiểu Ethernet, TCP/IP hay SAN truyền thống, mà còn phải làm quen với các khái niệm mới như RDMA, RoCEv2, PFC, ECN, NVMe-oF và InfiniBand. Đây chính là nền tảng của thế hệ AI Data Center hiện đại.