Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Cấu Hình Underlay Routing Bằng OSPF Trong Data Center AI

    Khi nhắc đến Data Center hiện đại phục vụ AI, nhiều người thường tập trung vào GPU, Storage hay AI Cluster. Tuy nhiên, phía dưới các công nghệ như VXLAN EVPN, Cisco ACI hay SDA Fabric luôn tồn tại một lớp nền tảng cực kỳ quan trọng gọi là Underlay Network.

    Underlay chính là mạng IP vật lý kết nối các switch Spine, Leaf, Border và đảm bảo mọi thiết bị trong fabric có thể liên lạc với nhau. Trong hầu hết các thiết kế Data Center hiện nay, OSPF là một trong những giao thức định tuyến phổ biến được sử dụng để xây dựng lớp underlay này.


    Underlay Routing là gì?


    Underlay Routing là hệ thống định tuyến IP vật lý bên dưới fabric.

    Nếu ví Data Center như một thành phố thì:
    • Underlay là hệ thống đường bộ.
    • Overlay (VXLAN EVPN) là các tuyến vận tải logic chạy trên hệ thống đường bộ đó.

    Mọi gói VXLAN sau này đều phải được vận chuyển thông qua mạng Underlay.

    Vì vậy một nguyên tắc quan trọng là:
    Overlay muốn hoạt động ổn định thì Underlay phải hoạt động ổn định trước.

    Mô hình trong hình vẽ


    Ta có:
    • 2 Border Switch
      • Border1
      • Border2
    • Nhiều Leaf Switch
      • Leaf1
      • Leaf2
      • Leaf3
      • Leaf4

    Các kết nối được thiết kế theo mô hình Clos Fabric.

    Mỗi Leaf kết nối lên cả hai Border để đảm bảo dự phòng.

    Tất cả các thiết bị đều chạy OSPF Area 0.
    Bật chức năng Layer 3


    Trên Cisco Switch, trước tiên cần kích hoạt khả năng định tuyến:
    ip routing

    Lệnh này biến switch từ thiết bị Layer 2 thành thiết bị Layer 3 có khả năng chạy OSPF.
    Cấu hình OSPF Process


    Ví dụ trên Border1:
    router ospf 35
    router-id 10.228.205.51

    Trong đó:
    • OSPF Process ID = 35
    • Router ID = 10.228.205.51

    Router ID đóng vai trò như định danh duy nhất của thiết bị trong hệ thống OSPF.

    Tương tự trên Leaf1:
    router ospf 35
    router-id 10.228.205.52

    Mỗi thiết bị phải có Router ID riêng.
    Sử dụng Loopback làm Router ID


    Trong hình có cấu hình:
    interface Loopback0
    ip address 10.228.205.51 255.255.255.255
    ip ospf 35 area 0

    Loopback có ưu điểm:
    • Luôn ở trạng thái Up
    • Không phụ thuộc vào cổng vật lý
    • Là địa chỉ ổn định cho Router ID

    Trong các hệ thống EVPN VXLAN sau này, địa chỉ Loopback còn được sử dụng làm:
    • VTEP IP
    • BGP Router ID
    • Nguồn Tunnel VXLAN

    Cấu hình các đường kết nối Point-to-Point


    Trong mô hình Clos Fabric, mỗi liên kết Leaf-Spine hoặc Leaf-Border thường sử dụng subnet /30 hoặc /31.

    Ví dụ:
    interface Gi1/0/23
    ip address 192.168.50.1 255.255.255.252
    ip ospf network point-to-point
    ip ospf 35 area 0

    Lệnh:
    ip ospf network point-to-point

    rất quan trọng vì:
    • Loại bỏ quá trình bầu chọn DR/BDR
    • Giảm số lượng LSA
    • Tăng tốc độ hội tụ

    Điều này rất phù hợp với Data Center Fabric vì các liên kết Leaf-Spine luôn là kết nối point-to-point.
    Tại sao tất cả đều nằm trong Area 0?


    Trong hình, tất cả các interface đều được đưa vào:
    ip ospf 35 area 0

    Lý do là Data Center Fabric thường áp dụng mô hình:
    Single Area OSPF

    Thay vì chia nhiều Area như mạng Enterprise truyền thống.

    Ưu điểm:
    • Thiết kế đơn giản
    • Dễ vận hành
    • Dễ tự động hóa
    • Giảm lỗi cấu hình

    Đối với Data Center AI, nơi có thể có hàng trăm hoặc hàng nghìn switch, việc đơn giản hóa thiết kế là cực kỳ quan trọng.
    Vì sao MTU 9100 được cấu hình?


    Trong hình có:
    system mtu 9100

    Đây là Jumbo Frame.

    VXLAN sẽ bổ sung thêm khoảng 50 byte header vào gói tin gốc.

    Nếu vẫn sử dụng MTU 1500, gói tin có thể bị phân mảnh hoặc bị loại bỏ.

    Do đó các Data Center hiện đại thường cấu hình:
    MTU 9000
    MTU 9100
    MTU 9216

    để hỗ trợ:
    • VXLAN
    • Storage Traffic
    • AI Cluster Traffic
    • RDMA/RoCE

    Đặc biệt trong các hệ thống AI sử dụng GPU như NVIDIA H100, H200 hoặc B200, Jumbo Frame gần như là yêu cầu bắt buộc.
    Tại sao phải bật Multicast Routing?


    Trong hình có:
    ip multicast-routing

    Lệnh này được sử dụng khi triển khai:
    • VXLAN Flood-and-Learn
    • PIM Sparse Mode
    • Multicast Replication

    Mặc dù nhiều hệ thống EVPN hiện nay đã sử dụng Head-End Replication và không còn phụ thuộc nhiều vào multicast, nhưng đây vẫn là cấu hình thường gặp trong nhiều Data Center Fabric.
    OSPF học những gì trong Underlay?


    Sau khi OSPF hình thành neighbor, các switch sẽ học:
    • Địa chỉ Loopback của tất cả thiết bị
    • Các mạng Point-to-Point giữa Leaf và Border
    • Các tuyến đường vật lý trong fabric

    Ví dụ Leaf1 sẽ học:
    10.228.205.51/32
    10.228.205.53/32
    10.228.205.54/32
    ...

    là Loopback của các thiết bị khác.

    Sau này khi VXLAN tạo tunnel giữa các VTEP, OSPF sẽ cung cấp đường đi IP để các tunnel này hoạt động.
    Vai trò của OSPF trong Data Center AI


    Trong các AI Data Center hiện đại, OSPF không mang lưu lượng người dùng trực tiếp mà đóng vai trò xây dựng lớp hạ tầng IP cho:
    • VXLAN EVPN
    • Cisco ACI
    • SDA Fabric
    • Kubernetes Networking
    • AI GPU Cluster
    • Storage Fabric

    Nói cách khác:
    OSPF là hệ thống đường cao tốc của Data Center, còn VXLAN EVPN là các phương tiện vận chuyển dữ liệu AI chạy trên hệ thống đường đó.

    Nếu Underlay OSPF không ổn định, toàn bộ Overlay VXLAN, GPU Cluster và các ứng dụng AI phía trên sẽ bị ảnh hưởng. Vì vậy, khi triển khai Data Center cho AI, việc thiết kế Underlay đơn giản, hội tụ nhanh và dễ vận hành luôn là ưu tiên hàng đầu.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X