RDMA Networking – Truyền dữ liệu tốc độ cực cao không qua CPU
Mở đầu: Khi tốc độ mạng hiện đại bắt đầu vượt quá khả năng xử lý của CPU
Trong nhiều năm, ngành công nghệ thông tin luôn tập trung vào việc tăng tốc phần cứng. CPU ngày càng mạnh hơn, RAM ngày càng nhanh hơn và tốc độ mạng liên tục được nâng cấp từ 1Gbps lên 10Gbps, 25Gbps, 100Gbps rồi 400Gbps. Tuy nhiên, khi các datacenter hiện đại bắt đầu xử lý khối lượng dữ liệu khổng lồ phục vụ cloud computing, AI, big data và supercomputing, một vấn đề lớn xuất hiện: CPU không còn đủ khả năng xử lý networking theo cách truyền thống.
Trong mô hình mạng thông thường, mỗi gói dữ liệu khi đi qua card mạng đều phải được CPU xử lý. Hệ điều hành phải kiểm tra packet, xử lý giao thức TCP/IP, copy dữ liệu giữa kernel space và user space, đồng thời quản lý hàng loạt interrupt từ card mạng. Khi tốc độ mạng tăng lên cực cao, CPU bắt đầu tiêu tốn phần lớn tài nguyên chỉ để “di chuyển dữ liệu” thay vì xử lý ứng dụng thực tế.
Đây chính là lý do RDMA Networking ra đời.
RDMA là viết tắt của Remote Direct Memory Access, một công nghệ cho phép dữ liệu truyền trực tiếp từ bộ nhớ RAM của máy này sang bộ nhớ RAM của máy khác mà gần như không cần CPU tham gia xử lý. Công nghệ này giúp giảm latency xuống mức cực thấp, tăng throughput lên mức rất cao và giảm đáng kể CPU overhead trong các hệ thống enterprise hiện đại.
Ngày nay, RDMA đã trở thành nền tảng quan trọng trong:
RDMA Networking là gì?
RDMA là công nghệ cho phép một máy tính truy cập trực tiếp vào vùng nhớ của máy tính khác thông qua network mà không cần dữ liệu phải đi qua CPU hoặc kernel networking stack như networking truyền thống.
Trong networking thông thường, dữ liệu phải trải qua nhiều bước:
Application gửi dữ liệu → Hệ điều hành xử lý → TCP/IP stack hoạt động → CPU xử lý packet → Card mạng truyền dữ liệu → Máy đích nhận packet → CPU xử lý → Copy dữ liệu vào RAM → Application đọc dữ liệu.
Mỗi bước đều tạo ra độ trễ và tiêu tốn tài nguyên hệ thống.
Trong RDMA, quá trình được rút gọn đáng kể:
Application → RDMA NIC → Network → RDMA NIC → RAM máy đích.
CPU gần như không phải xử lý packet trung gian.
Điểm quan trọng nhất của RDMA là:
Vấn đề của networking truyền thống
Để hiểu vì sao RDMA quan trọng, cần hiểu hạn chế của networking thông thường.
Trong TCP/IP truyền thống, khi một packet đi vào server:
Điều này đặc biệt nghiêm trọng trong:
RDMA ra đời để giải quyết chính xác vấn đề đó.
Nguyên lý hoạt động của RDMA
RDMA hoạt động dựa trên khả năng cho phép card mạng truy cập trực tiếp vào bộ nhớ hệ thống thông qua DMA – Direct Memory Access.
DMA là công nghệ cho phép thiết bị phần cứng truyền dữ liệu trực tiếp vào RAM mà không cần CPU xử lý từng byte dữ liệu.
Trong RDMA:
Điều này giúp:
Một trong các nguyên nhân lớn khiến networking truyền thống chậm là kernel networking stack.
Thông thường:
Khi có hàng triệu packet mỗi giây, context switching tạo ra lượng overhead rất lớn.
RDMA sử dụng kernel bypass để bỏ qua phần lớn networking stack của hệ điều hành.
Application có thể giao tiếp trực tiếp với NIC thông qua thư viện RDMA.
Kết quả là:
Zero-Copy Networking – Truyền dữ liệu không cần copy nhiều lần
Networking truyền thống thường copy dữ liệu nhiều lần:
Dữ liệu được truyền trực tiếp giữa vùng nhớ của hai máy mà không cần copy qua nhiều lớp trung gian.
Đây là lý do RDMA cực kỳ hiệu quả trong:
Khi nhắc đến RDMA, InfiniBand là công nghệ nổi bật nhất.
InfiniBand là kiến trúc networking hiệu năng cực cao được thiết kế cho:
Sau khi mua lại Mellanox, NVIDIA trở thành một trong các công ty thống trị thị trường InfiniBand toàn cầu.
Trong AI infrastructure hiện đại, InfiniBand gần như là tiêu chuẩn cho GPU cluster quy mô lớn.
RoCE – RDMA chạy trên Ethernet
Dù InfiniBand rất mạnh, Ethernet vẫn là nền tảng mạng phổ biến nhất thế giới.
Đó là lý do RoCE ra đời.
RoCE là viết tắt của RDMA over Converged Ethernet.
Công nghệ này cho phép RDMA hoạt động trên mạng Ethernet thông thường.
RoCE giúp doanh nghiệp:
RoCE được dùng rộng rãi trong:
Một công nghệ khác là iWARP.
Khác với RoCE, iWARP hoạt động dựa trên TCP/IP nên tương thích tốt hơn với hạ tầng network truyền thống.
Ưu điểm:
RDMA và AI Infrastructure
AI là lĩnh vực thúc đẩy RDMA phát triển mạnh nhất hiện nay.
Trong các hệ thống AI training:
Thông thường, dữ liệu GPU phải đi qua CPU RAM trước khi truyền ra network.
GPU → CPU RAM → NIC → Network
GPU Direct RDMA thay đổi hoàn toàn quá trình này:
GPU → NIC → Network
Card mạng truy cập trực tiếp vào bộ nhớ GPU.
Điều này giúp:
RDMA trong High Performance Computing
HPC là môi trường yêu cầu networking tốc độ cực cao.
Các hệ thống HPC thường:
RDMA trong Storage hiện đại
SSD NVMe hiện đại có tốc độ rất cao.
Vấn đề là networking truyền thống không còn theo kịp hiệu năng của storage.
TCP/IP trở thành bottleneck.
RDMA giúp storage network đạt hiệu năng gần local disk.
Các công nghệ hưởng lợi lớn từ RDMA:
RDMA trong Financial Trading
Trong high-frequency trading, tốc độ là tất cả.
Chỉ chậm vài microsecond cũng có thể:
SmartNIC và DPU – Tương lai của networking hiện đại
Networking hiện đại đang chuyển sang mô hình hardware offload.
SmartNIC và DPU là các card mạng cực kỳ thông minh có thể:
RDMA là một phần rất quan trọng trong xu hướng này.
Datacenter tương lai sẽ:
Những khó khăn khi triển khai RDMA
Dù rất mạnh, RDMA không hề dễ triển khai.
Một số vấn đề phổ biến:
Do đó datacenter RDMA thường cần:
RDMA và tương lai của datacenter
Trong nhiều năm, datacenter tập trung vào CPU-centric architecture.
Nhưng hiện nay:
RDMA đang giúp chuyển đổi datacenter sang:
Học RDMA cần nền tảng gì?
RDMA là chủ đề khá khó vì liên quan nhiều lĩnh vực:
Chứng chỉ và định hướng nghề nghiệp liên quan RDMA
Hiện nay chưa có nhiều chứng chỉ chuyên biệt chỉ tập trung vào RDMA, nhưng RDMA thường xuất hiện trong:
Tại Việt Nam, nhiều chứng chỉ quốc tế liên quan đến networking, datacenter, cloud infrastructure và enterprise system có thể đăng ký thi thông qua hệ thống khảo thí Pearson VUE tại VNPro.
Trung tâm: VIET Professional Co., Ltd (VnPro) – TP. Hồ Chí Minh
Địa chỉ: 276-278 Ung Văn Khiêm, Phường Thạnh Mỹ Tây, TP. Hồ Chí Minh
Đây là địa điểm quen thuộc của nhiều kỹ sư mạng, system engineer và chuyên gia hạ tầng khi thi các chứng chỉ quốc tế như:
Cisco Data Center, VMware, Red Hat, CompTIA, Linux Foundation và nhiều chương trình đào tạo enterprise khác.
Với những ai muốn theo đuổi mảng AI infrastructure, cloud hyperscale hoặc datacenter engineering, việc tìm hiểu RDMA, RoCE, InfiniBand và GPU networking sẽ trở thành lợi thế rất lớn trong tương lai.
Kết luận: RDMA đang thay đổi cách dữ liệu di chuyển trong thế giới số
Trong nhiều thập kỷ, ngành CNTT tập trung vào việc tăng tốc CPU và nâng cấp băng thông mạng. Nhưng khi dữ liệu ngày càng lớn và workload hiện đại ngày càng phức tạp, giới hạn của networking truyền thống bắt đầu lộ rõ.
CPU không còn đủ khả năng xử lý hàng triệu packet mỗi giây mà không tạo ra bottleneck.
RDMA xuất hiện như một bước tiến cực kỳ quan trọng khi cho phép dữ liệu truyền trực tiếp giữa các vùng nhớ với độ trễ cực thấp và mức tiêu thụ CPU tối thiểu.
Từ AI cluster, supercomputer, cloud hyperscale cho tới storage enterprise và financial trading, RDMA đang dần trở thành nền tảng cốt lõi của hạ tầng hiệu năng cao thế hệ mới.
Trong tương lai, khi GPU tiếp tục phát triển, AI tiếp tục mở rộng và dữ liệu tiếp tục bùng nổ, networking sẽ không còn chỉ là công nghệ “kết nối máy tính”. Nó sẽ trở thành yếu tố quyết định hiệu năng của toàn bộ hệ thống.
Và RDMA chính là một trong những công nghệ quan trọng nhất đang định hình tương lai của datacenter hiện đại.
Mở đầu: Khi tốc độ mạng hiện đại bắt đầu vượt quá khả năng xử lý của CPU
Trong nhiều năm, ngành công nghệ thông tin luôn tập trung vào việc tăng tốc phần cứng. CPU ngày càng mạnh hơn, RAM ngày càng nhanh hơn và tốc độ mạng liên tục được nâng cấp từ 1Gbps lên 10Gbps, 25Gbps, 100Gbps rồi 400Gbps. Tuy nhiên, khi các datacenter hiện đại bắt đầu xử lý khối lượng dữ liệu khổng lồ phục vụ cloud computing, AI, big data và supercomputing, một vấn đề lớn xuất hiện: CPU không còn đủ khả năng xử lý networking theo cách truyền thống.
Trong mô hình mạng thông thường, mỗi gói dữ liệu khi đi qua card mạng đều phải được CPU xử lý. Hệ điều hành phải kiểm tra packet, xử lý giao thức TCP/IP, copy dữ liệu giữa kernel space và user space, đồng thời quản lý hàng loạt interrupt từ card mạng. Khi tốc độ mạng tăng lên cực cao, CPU bắt đầu tiêu tốn phần lớn tài nguyên chỉ để “di chuyển dữ liệu” thay vì xử lý ứng dụng thực tế.
Đây chính là lý do RDMA Networking ra đời.
RDMA là viết tắt của Remote Direct Memory Access, một công nghệ cho phép dữ liệu truyền trực tiếp từ bộ nhớ RAM của máy này sang bộ nhớ RAM của máy khác mà gần như không cần CPU tham gia xử lý. Công nghệ này giúp giảm latency xuống mức cực thấp, tăng throughput lên mức rất cao và giảm đáng kể CPU overhead trong các hệ thống enterprise hiện đại.
Ngày nay, RDMA đã trở thành nền tảng quan trọng trong:
- AI Infrastructure
- High Performance Computing
- GPU Cluster
- Cloud Datacenter
- Storage tốc độ cao
- Financial Trading System
- Distributed Database
- Enterprise Networking thế hệ mới
RDMA Networking là gì?
RDMA là công nghệ cho phép một máy tính truy cập trực tiếp vào vùng nhớ của máy tính khác thông qua network mà không cần dữ liệu phải đi qua CPU hoặc kernel networking stack như networking truyền thống.
Trong networking thông thường, dữ liệu phải trải qua nhiều bước:
Application gửi dữ liệu → Hệ điều hành xử lý → TCP/IP stack hoạt động → CPU xử lý packet → Card mạng truyền dữ liệu → Máy đích nhận packet → CPU xử lý → Copy dữ liệu vào RAM → Application đọc dữ liệu.
Mỗi bước đều tạo ra độ trễ và tiêu tốn tài nguyên hệ thống.
Trong RDMA, quá trình được rút gọn đáng kể:
Application → RDMA NIC → Network → RDMA NIC → RAM máy đích.
CPU gần như không phải xử lý packet trung gian.
Điểm quan trọng nhất của RDMA là:
- Kernel bypass
- Zero-copy networking
- Direct memory access
- Hardware offload
Vấn đề của networking truyền thống
Để hiểu vì sao RDMA quan trọng, cần hiểu hạn chế của networking thông thường.
Trong TCP/IP truyền thống, khi một packet đi vào server:
- Card mạng gửi interrupt cho CPU
- CPU gọi kernel xử lý packet
- TCP stack kiểm tra và assemble dữ liệu
- Dữ liệu được copy nhiều lần
- Kernel chuyển dữ liệu sang user space
- Application đọc dữ liệu
- CPU overhead lớn
- Context switching
- Memory copy overhead
- Interrupt overhead
- Scheduler latency
Điều này đặc biệt nghiêm trọng trong:
- AI cluster
- HPC
- Storage system
- Real-time analytics
- Financial trading
RDMA ra đời để giải quyết chính xác vấn đề đó.
Nguyên lý hoạt động của RDMA
RDMA hoạt động dựa trên khả năng cho phép card mạng truy cập trực tiếp vào bộ nhớ hệ thống thông qua DMA – Direct Memory Access.
DMA là công nghệ cho phép thiết bị phần cứng truyền dữ liệu trực tiếp vào RAM mà không cần CPU xử lý từng byte dữ liệu.
Trong RDMA:
- Application đăng ký vùng nhớ với NIC
- NIC được cấp quyền truy cập vùng RAM đó
- Dữ liệu được truyền trực tiếp từ RAM nguồn sang RAM đích
- CPU chỉ thiết lập kết nối ban đầu
Điều này giúp:
- Giảm CPU usage cực mạnh
- Tăng tốc truyền dữ liệu
- Giảm latency
- Giảm packet processing overhead
Một trong các nguyên nhân lớn khiến networking truyền thống chậm là kernel networking stack.
Thông thường:
- Application muốn gửi dữ liệu phải gọi system call
- CPU chuyển từ user mode sang kernel mode
- Kernel xử lý networking
- Sau đó trả kết quả về application
Khi có hàng triệu packet mỗi giây, context switching tạo ra lượng overhead rất lớn.
RDMA sử dụng kernel bypass để bỏ qua phần lớn networking stack của hệ điều hành.
Application có thể giao tiếp trực tiếp với NIC thông qua thư viện RDMA.
Kết quả là:
- Latency giảm mạnh
- CPU overhead thấp hơn nhiều
- Throughput cao hơn đáng kể
Zero-Copy Networking – Truyền dữ liệu không cần copy nhiều lần
Networking truyền thống thường copy dữ liệu nhiều lần:
- Từ application buffer sang kernel buffer
- Từ kernel buffer sang NIC buffer
- Sau đó lặp lại ở máy đích
- Tiêu tốn CPU
- Tốn memory bandwidth
- Tăng latency
Dữ liệu được truyền trực tiếp giữa vùng nhớ của hai máy mà không cần copy qua nhiều lớp trung gian.
Đây là lý do RDMA cực kỳ hiệu quả trong:
- Distributed storage
- AI training
- Big data
- HPC
- In-memory database
Khi nhắc đến RDMA, InfiniBand là công nghệ nổi bật nhất.
InfiniBand là kiến trúc networking hiệu năng cực cao được thiết kế cho:
- Supercomputer
- HPC
- AI cluster
- Enterprise datacenter
- Latency cực thấp
- Throughput cực cao
- Network fabric tối ưu
- Hỗ trợ RDMA native
Sau khi mua lại Mellanox, NVIDIA trở thành một trong các công ty thống trị thị trường InfiniBand toàn cầu.
Trong AI infrastructure hiện đại, InfiniBand gần như là tiêu chuẩn cho GPU cluster quy mô lớn.
RoCE – RDMA chạy trên Ethernet
Dù InfiniBand rất mạnh, Ethernet vẫn là nền tảng mạng phổ biến nhất thế giới.
Đó là lý do RoCE ra đời.
RoCE là viết tắt của RDMA over Converged Ethernet.
Công nghệ này cho phép RDMA hoạt động trên mạng Ethernet thông thường.
RoCE giúp doanh nghiệp:
- Không cần thay toàn bộ hạ tầng
- Tận dụng switch Ethernet
- Triển khai RDMA dễ hơn
RoCE được dùng rộng rãi trong:
- AI datacenter
- VMware environment
- GPU cluster
- NVMe storage
- Enterprise cloud
Một công nghệ khác là iWARP.
Khác với RoCE, iWARP hoạt động dựa trên TCP/IP nên tương thích tốt hơn với hạ tầng network truyền thống.
Ưu điểm:
- Dễ triển khai
- Không cần lossless Ethernet quá nghiêm ngặt
- Latency cao hơn
- Hiệu năng thường thấp hơn InfiniBand và RoCE
RDMA và AI Infrastructure
AI là lĩnh vực thúc đẩy RDMA phát triển mạnh nhất hiện nay.
Trong các hệ thống AI training:
- GPU phải trao đổi dữ liệu liên tục
- Tensor synchronization diễn ra liên tục
- Distributed training cần bandwidth cực lớn
- GPU phải chờ dữ liệu
- Hiệu suất training giảm mạnh
- Chi phí vận hành tăng rất lớn
- Hàng nghìn GPU
- Hàng petabyte dữ liệu
- Traffic cực lớn giữa các node
- GPU communication nhanh hơn
- Giảm latency synchronization
- Tăng hiệu suất distributed training
- Giảm bottleneck networking
- InfiniBand
- RoCE
- GPU Direct RDMA
- SmartNIC
- DPU
Thông thường, dữ liệu GPU phải đi qua CPU RAM trước khi truyền ra network.
GPU → CPU RAM → NIC → Network
GPU Direct RDMA thay đổi hoàn toàn quá trình này:
GPU → NIC → Network
Card mạng truy cập trực tiếp vào bộ nhớ GPU.
Điều này giúp:
- Giảm latency cực mạnh
- Giảm CPU bottleneck
- Tăng tốc AI training
- Tăng tốc HPC
RDMA trong High Performance Computing
HPC là môi trường yêu cầu networking tốc độ cực cao.
Các hệ thống HPC thường:
- Chạy simulation khoa học
- Mô phỏng vật lý
- Dự báo thời tiết
- Nghiên cứu gene
- Mô phỏng hạt nhân
- Hàng nghìn node phải trao đổi dữ liệu liên tục
- Latency ảnh hưởng trực tiếp tới hiệu năng
- Node-to-node communication nhanh hơn
- MPI performance tốt hơn
- Giảm CPU overhead
- Tăng scalability
RDMA trong Storage hiện đại
SSD NVMe hiện đại có tốc độ rất cao.
Vấn đề là networking truyền thống không còn theo kịp hiệu năng của storage.
TCP/IP trở thành bottleneck.
RDMA giúp storage network đạt hiệu năng gần local disk.
Các công nghệ hưởng lợi lớn từ RDMA:
- NVMe over Fabrics
- Distributed storage
- Parallel filesystem
- Ceph RDMA
- SAN thế hệ mới
RDMA trong Financial Trading
Trong high-frequency trading, tốc độ là tất cả.
Chỉ chậm vài microsecond cũng có thể:
- Mất lợi thế giao dịch
- Mất hàng triệu USD
- Thua thuật toán đối thủ
- Ultra-low latency
- Real-time packet processing
- High-throughput networking
- Giảm networking delay
- Giảm CPU processing time
- Tăng tốc market data feed
SmartNIC và DPU – Tương lai của networking hiện đại
Networking hiện đại đang chuyển sang mô hình hardware offload.
SmartNIC và DPU là các card mạng cực kỳ thông minh có thể:
- Chạy security processing
- Storage processing
- Virtual switching
- Encryption
- Telemetry
RDMA là một phần rất quan trọng trong xu hướng này.
Datacenter tương lai sẽ:
- Tách networking khỏi CPU
- Tách storage processing khỏi CPU
- Tách security khỏi CPU
Những khó khăn khi triển khai RDMA
Dù rất mạnh, RDMA không hề dễ triển khai.
Một số vấn đề phổ biến:
- Packet loss
- Congestion
- Buffer tuning
- Driver compatibility
- QoS configuration
- Switch optimization
Do đó datacenter RDMA thường cần:
- Lossless Ethernet
- Priority Flow Control
- Data Center Bridging
- ECN tuning
RDMA và tương lai của datacenter
Trong nhiều năm, datacenter tập trung vào CPU-centric architecture.
Nhưng hiện nay:
- GPU ngày càng quan trọng
- AI workload tăng mạnh
- Storage tốc độ cực cao
- Distributed computing phát triển
RDMA đang giúp chuyển đổi datacenter sang:
- GPU-centric architecture
- Memory-centric computing
- Composable infrastructure
- High-speed fabric architecture
Học RDMA cần nền tảng gì?
RDMA là chủ đề khá khó vì liên quan nhiều lĩnh vực:
- Linux
- Ethernet
- TCP/IP
- Kernel
- PCIe
- Storage
- Datacenter
- Distributed systems
- DMA engine
- Queue Pair
- NUMA
- NIC offload
- Congestion control
- GPU networking
Chứng chỉ và định hướng nghề nghiệp liên quan RDMA
Hiện nay chưa có nhiều chứng chỉ chuyên biệt chỉ tập trung vào RDMA, nhưng RDMA thường xuất hiện trong:
- Data Center Networking
- AI Infrastructure
- HPC Engineering
- Enterprise Storage
- Cloud Infrastructure
- Cloud provider
- AI company
- Telecom
- Financial infrastructure
- Enterprise datacenter
- Supercomputing center
- Cisco Data Center
- NVIDIA Networking
- VMware
- Red Hat
- Linux Foundation
- Kubernetes infrastructure
Tại Việt Nam, nhiều chứng chỉ quốc tế liên quan đến networking, datacenter, cloud infrastructure và enterprise system có thể đăng ký thi thông qua hệ thống khảo thí Pearson VUE tại VNPro.
Trung tâm: VIET Professional Co., Ltd (VnPro) – TP. Hồ Chí Minh
Địa chỉ: 276-278 Ung Văn Khiêm, Phường Thạnh Mỹ Tây, TP. Hồ Chí Minh
Đây là địa điểm quen thuộc của nhiều kỹ sư mạng, system engineer và chuyên gia hạ tầng khi thi các chứng chỉ quốc tế như:
Cisco Data Center, VMware, Red Hat, CompTIA, Linux Foundation và nhiều chương trình đào tạo enterprise khác.
Với những ai muốn theo đuổi mảng AI infrastructure, cloud hyperscale hoặc datacenter engineering, việc tìm hiểu RDMA, RoCE, InfiniBand và GPU networking sẽ trở thành lợi thế rất lớn trong tương lai.
Kết luận: RDMA đang thay đổi cách dữ liệu di chuyển trong thế giới số
Trong nhiều thập kỷ, ngành CNTT tập trung vào việc tăng tốc CPU và nâng cấp băng thông mạng. Nhưng khi dữ liệu ngày càng lớn và workload hiện đại ngày càng phức tạp, giới hạn của networking truyền thống bắt đầu lộ rõ.
CPU không còn đủ khả năng xử lý hàng triệu packet mỗi giây mà không tạo ra bottleneck.
RDMA xuất hiện như một bước tiến cực kỳ quan trọng khi cho phép dữ liệu truyền trực tiếp giữa các vùng nhớ với độ trễ cực thấp và mức tiêu thụ CPU tối thiểu.
Từ AI cluster, supercomputer, cloud hyperscale cho tới storage enterprise và financial trading, RDMA đang dần trở thành nền tảng cốt lõi của hạ tầng hiệu năng cao thế hệ mới.
Trong tương lai, khi GPU tiếp tục phát triển, AI tiếp tục mở rộng và dữ liệu tiếp tục bùng nổ, networking sẽ không còn chỉ là công nghệ “kết nối máy tính”. Nó sẽ trở thành yếu tố quyết định hiệu năng của toàn bộ hệ thống.
Và RDMA chính là một trong những công nghệ quan trọng nhất đang định hình tương lai của datacenter hiện đại.