Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • gNMI

    gNMI – Khi Network Automation bước sang kỷ nguyên Telemetry Streaming


    Trong nhiều năm, cách vận hành hạ tầng mạng gần như không thay đổi quá nhiều. Network Engineer SSH vào thiết bị, chạy lệnh show, kiểm tra interface, debug routing, sau đó copy-paste cấu hình bằng CLI. Khi hệ thống lớn dần, SNMP xuất hiện để hỗ trợ monitoring tập trung. Nhưng rồi cloud, automation và AI infrastructure bắt đầu thay đổi hoàn toàn yêu cầu của hạ tầng mạng hiện đại.

    Monitoring theo kiểu polling mỗi 5 phút không còn đủ nhanh.
    CLI thủ công không còn đủ khả năng scale.
    Infrastructure hiện đại cần dữ liệu realtime.

    Đó là lúc gNMI xuất hiện.

    Cisco đã hỗ trợ NETCONF và RESTCONF từ IOS XE Release 16, nhưng đến IOS XE Release 17, hãng bắt đầu đầu tư mạnh hơn vào kiến trúc Network API với hỗ trợ đầy đủ cho gNMI. Đây là một bước chuyển rất đáng chú ý vì nó cho thấy network operating system đang dần tiến hóa thành một nền tảng programmable infrastructure thay vì chỉ là router và switch truyền thống.
    gNMI là gì?


    gNMI viết tắt của gRPC Network Management Interface. Đây là một giao thức quản lý thiết bị mạng hiện đại được xây dựng dựa trên:
    • gRPC
    • Protocol Buffers (protobuf)
    • YANG data model

    Nếu NETCONF và RESTCONF đại diện cho thế hệ API đầu tiên của network automation thì gNMI là thế hệ tiếp theo, được thiết kế cho cloud-scale infrastructure và telemetry realtime.

    Điểm quan trọng nhất của gNMI là nó không chỉ dùng để cấu hình thiết bị mà còn hỗ trợ streaming telemetry theo thời gian thực.

    Điều này thay đổi hoàn toàn cách chúng ta giám sát và vận hành hệ thống mạng.
    Từ SNMP Polling đến Streaming Telemetry


    Trong mô hình truyền thống, hệ thống monitoring sẽ liên tục polling thiết bị bằng SNMP.

    Ví dụ:
    CPU usage là bao nhiêu?
    Interface có down không?
    Memory còn bao nhiêu?

    Hệ thống phải gửi request định kỳ đến từng thiết bị để lấy dữ liệu. Mô hình này gọi là pull-based telemetry.

    Cách làm này hoạt động khá tốt trong các mạng nhỏ hoặc enterprise truyền thống. Tuy nhiên khi bước sang môi trường:
    • Data Center
    • Cloud
    • SD-WAN
    • AI Cluster
    • Multi-cloud Infrastructure

    thì polling bắt đầu trở thành bottleneck.

    Hãy tưởng tượng một fabric có hàng nghìn interface và telemetry phải được cập nhật liên tục từng giây. Việc polling SNMP theo chu kỳ sẽ tạo ra:
    • độ trễ
    • tải CPU
    • lượng traffic monitoring lớn
    • dữ liệu thiếu realtime

    gNMI giải quyết vấn đề này bằng cách chuyển sang push-based telemetry.

    Thiết bị sẽ chủ động stream dữ liệu về collector ngay khi có thay đổi thay vì đợi hệ thống bên ngoài đi hỏi.

    Đây chính là nền tảng của modern observability.
    Các operation chính của gNMI


    Một trong những điểm hay của gNMI là giao thức này khá đơn giản và trực quan.

    Nó tập trung vào ba operation chính.

    GET dùng để lấy dữ liệu operational state từ thiết bị. Ví dụ:
    • trạng thái interface
    • routing table
    • BGP neighbor
    • CPU utilization

    SET dùng để cấu hình thiết bị. Đây là phần rất quan trọng trong Infrastructure as Code và Network Automation. Một automation pipeline hoàn toàn có thể dùng gNMI để push policy, cấu hình VLAN hoặc cập nhật routing configuration.

    Nhưng phần thú vị nhất chính là SUBSCRIBE.

    SUBSCRIBE cho phép thiết bị stream telemetry realtime đến collector hoặc controller. Ví dụ:
    • interface utilization
    • queue drops
    • packet loss
    • BGP flap
    • CPU spike

    Ngay khi sự kiện xảy ra, collector nhận được dữ liệu gần như tức thời.

    Đây là khác biệt cực lớn so với SNMP polling.
    gNMI và YANG/OpenConfig


    Một điểm cực kỳ quan trọng khác là gNMI thường hoạt động cùng:
    • YANG model
    • OpenConfig

    Trong quá khứ, automation network gặp rất nhiều khó khăn vì mỗi vendor có CLI khác nhau.

    Cisco có syntax riêng.
    Juniper có syntax riêng.
    Arista có syntax riêng.

    Điều này làm automation rất khó scale trong môi trường multi-vendor.

    OpenConfig cố gắng giải quyết vấn đề bằng cách chuẩn hóa data model. Thay vì automation dựa trên CLI text parsing, hệ thống sẽ tương tác với structured data thông qua YANG model.

    Đây là lý do tại sao gNMI trở thành một phần rất quan trọng trong NetDevOps hiện đại.
    Tại sao DevOps và AIOps cần gNMI?


    Khi nói về cloud hoặc AI infrastructure, chúng ta không còn vận hành vài chục switch nữa.

    Một AI fabric hiện đại có thể bao gồm:
    • spine-leaf fabric
    • EVPN VXLAN
    • RoCEv2
    • GPU cluster
    • telemetry collector
    • observability pipeline

    Các hệ thống này yêu cầu khả năng theo dõi realtime:
    • congestion
    • queue depth
    • ECN marking
    • latency spike
    • packet drop

    Nếu chỉ polling SNMP mỗi vài phút thì gần như không thể phát hiện vấn đề đúng thời điểm.

    gNMI giúp cung cấp streaming telemetry liên tục để:
    • AIOps phân tích anomaly
    • hệ thống tự động tối ưu traffic
    • automation engine trigger remediation
    • observability platform hiển thị realtime metrics

    Đây là lý do các kiến trúc AI Networking hiện đại bắt đầu phụ thuộc rất nhiều vào telemetry streaming.
    Network Engineer đang thay đổi như thế nào?


    Một trong những thay đổi lớn nhất vài năm gần đây là kỹ năng của Network Engineer.

    Ngày trước, trọng tâm thường là:
    • STP
    • OSPF
    • BGP
    • CLI
    • troubleshooting

    Ngày nay, điều đó vẫn quan trọng nhưng chưa đủ.

    Network Engineer hiện đại bắt đầu phải hiểu thêm:
    • APIs
    • JSON
    • YANG
    • Python
    • gRPC
    • Telemetry
    • Automation pipeline
    • Observability

    Ranh giới giữa Network Engineer và Platform Engineer đang ngày càng mờ đi.

    Network không còn là “cấu hình thiết bị”.
    Network đang dần trở thành một programmable distributed system.
    Kết luận


    gNMI không đơn giản chỉ là một giao thức API mới của Cisco hay OpenConfig.

    Nó đại diện cho sự thay đổi tư duy trong cách vận hành hạ tầng hiện đại.

    Từ:
    • polling sang streaming
    • CLI sang programmable API
    • manual operation sang automation
    • monitoring sang observability realtime

    Trong vài năm tới, những hệ thống cloud, AI infrastructure và hyperscale network sẽ ngày càng phụ thuộc nhiều hơn vào telemetry-driven operation.

    Và ở trung tâm của xu hướng đó, gNMI đang trở thành một công nghệ mà bất kỳ Network Automation Engineer hay NetDevOps Engineer nào cũng nên hiểu rõ.
    Attached Files
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X