Khi AI Không Chỉ Trả Lời, Mà Biết Tự Chọn Công Cụ Để Xử Lý Sự Cố

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11139
- Share
- Tweet
#1

Khi AI Không Chỉ Trả Lời, Mà Biết Tự Chọn Công Cụ Để Xử Lý Sự Cố

7 hours ago

Agentic AI trong Network Operations: Khi AI Không Chỉ Trả Lời, Mà Biết Tự Chọn Công Cụ Để Xử Lý Sự Cố

Sáng thứ Hai, bạn bước vào văn phòng và thấy hàng đợi công việc đã đầy. Một site đối tác liên tục rớt session. Một VLAN mới cần được triển khai xuống 12 switch. Một kỹ sư junior cần hỗ trợ viết ACL. Bộ phận compliance lại yêu cầu tổng hợp các change ticket của quý trước.

Một phần công việc có thể giao cho automation. Một phần có thể hỏi Generative AI. Nhưng một phần khác cần một loại AI cao hơn: Agentic AI. Agentic AI Là Gì Trong Network Operations?

Trong NetOps hiện nay, có ba khái niệm rất dễ bị nhầm lẫn: Rule-based Automation, Generative AI và Agentic AI.

Rule-based Automation là các script hoặc playbook làm đúng những gì chúng ta đã viết sẵn. Ví dụ như Ansible Playbook, Python dùng NETCONF/RESTCONF, hoặc Cisco Embedded Event Manager (EEM). Nếu bạn viết lệnh “kiểm tra interface rồi clear counter”, automation sẽ làm đúng như vậy, không tự suy luận thêm.

Generative AI như LLM nhận prompt và tạo ra kết quả. Ví dụ, bạn hỏi AI cách viết ACL, yêu cầu giải thích log, tạo runbook hoặc sinh cấu hình mẫu. Nó giỏi tạo nội dung, nhưng bản thân nó không tự đi kiểm tra thiết bị nếu không có công cụ được tích hợp.

Agentic AI khác ở chỗ: bạn đưa cho nó một mục tiêu, sau đó nó tự quyết định cần gọi công cụ nào, theo thứ tự nào, để đạt được mục tiêu đó.

Ví dụ, thay vì hỏi:
“Giải thích log interface error này.”

Bạn giao mục tiêu:
“Điều tra nguyên nhân interface error tăng đột biến ở campus access layer và đề xuất hướng xử lý.”

Lúc này Agentic AI có thể tự chạy các lệnh show command, truy vấn telemetry, kiểm tra ticket gần đây, đối chiếu thay đổi cấu hình, tổng hợp bằng chứng và đề xuất bước tiếp theo.

Ba Thành Phần Cốt Lõi Của Agentic AI

Một hệ thống Agentic AI trong vận hành mạng thường có ba thành phần chính.

Thứ nhất là Agent. Đây thường là một LLM có khả năng suy luận, lập kế hoạch và quyết định bước tiếp theo dựa trên mục tiêu được giao.

Thứ hai là Tools. Đây là các công cụ mà agent được phép gọi, chẳng hạn như show interface, show logging, API của hệ thống telemetry, API của ticketing system, công cụ truy vấn SIEM, hoặc function dùng để push cấu hình.

Thứ ba là Feedback Loop. Sau mỗi lần gọi công cụ, agent đọc kết quả, cập nhật kế hoạch, rồi quyết định bước tiếp theo. Nếu đủ thông tin, nó đưa ra kết luận. Nếu chưa đủ, nó tiếp tục thu thập dữ liệu. Nếu vượt quyền hoặc rủi ro cao, nó escalates cho con người.

Điểm quan trọng là agent không nên truy cập trực tiếp vào network một cách tự do. Mọi hành động phải đi qua các tool đã định nghĩa trước, có quyền hạn rõ ràng, có log, có kiểm soát và có thể audit.

Agentic AI Giống Cách Một Kỹ Sư Mạng Làm Việc

Khi xử lý sự cố thủ công, kỹ sư mạng thường không biết ngay nguyên nhân. Chúng ta sẽ làm theo vòng lặp:

Quan sát triệu chứng.

Chọn lệnh kiểm tra đầu tiên.

Đọc kết quả.

Chọn lệnh tiếp theo.

Đối chiếu log, cấu hình và trạng thái thiết bị.

Từ đó mới xác định nguyên nhân và hành động phù hợp.

Agentic AI mô phỏng đúng quy trình này, nhưng thực hiện tự động qua các tool được cấp quyền.

Ví dụ, khi một site bị rớt session liên tục, agent có thể kiểm tra trạng thái WAN, xem interface error, kiểm tra BGP/OSPF neighbor, truy vấn log firewall, kiểm tra ticket thay đổi gần đây, rồi kết luận rằng sự cố có thể liên quan đến packet loss trên uplink ISP.

Kỹ sư mạng lúc này không cần tự làm toàn bộ bước thu thập dữ liệu ban đầu, mà tập trung vào việc xác nhận kết luận và phê duyệt hành động. Generative AI Là Một Phần Của Agentic AI, Không Phải Toàn Bộ

Cần phân biệt rõ:

Nếu bạn hỏi LLM:
“Viết cấu hình interface VLAN 20.”

Đó là Generative AI.

Nếu bạn yêu cầu hệ thống:
“Tìm switch nào đang thiếu VLAN 20, kiểm tra trunk allowed VLAN, tạo change ticket và đề xuất cấu hình triển khai.”

Đó là Agentic AI.

Generative AI tạo nội dung. Agentic AI dùng LLM để lập kế hoạch, gọi công cụ, đọc kết quả, điều chỉnh hướng xử lý và tiến gần đến mục tiêu.

Vì Sao Agentic AI Quan Trọng Với NetOps?

Mạng ngày nay lớn hơn rất nhiều so với vài năm trước. Nhiều thiết bị hơn, nhiều telemetry hơn, nhiều cảnh báo hơn, nhiều yêu cầu thay đổi hơn. Nhưng số lượng kỹ sư vận hành thường không tăng tương ứng.

Agentic AI giúp xử lý các bước triage lặp lại như:

Kiểm tra log ban đầu.

Thu thập output từ nhiều thiết bị.

Đối chiếu ticket và change history.

Tạo bản tóm tắt sự cố.

Đề xuất checklist xử lý.

Mở ticket kèm bằng chứng.

Nhờ đó, kỹ sư có thể tập trung vào các tình huống quan trọng hơn, rủi ro cao hơn, hoặc cần phán đoán kiến trúc và bảo mật.

Ví Dụ Thực Tế

Bạn giao cho agent mục tiêu:
“Kiểm tra vì sao partner site hay bị rớt session.”

Agent có thể bắt đầu bằng việc kiểm tra log VPN hoặc firewall. Nếu thấy tunnel reset, nó tiếp tục kiểm tra WAN interface. Nếu phát hiện CRC error tăng, nó kiểm tra thêm physical layer, lịch sử thay đổi, sự kiện ISP và ticket gần nhất. Sau đó agent có thể tạo báo cáo ngắn:

“Session drop có tương quan với CRC error tăng trên WAN interface. Không thấy thay đổi cấu hình trong 24 giờ gần nhất. Đề xuất kiểm tra cáp, module quang hoặc mở ticket ISP.”

Đây không còn là chatbot trả lời chung chung. Đây là một hệ thống có khả năng đi qua nhiều bước điều tra giống như một kỹ sư vận hành cấp 1 hoặc cấp 2.

Kết Luận

Agentic AI là bước tiến tiếp theo của AI trong Network Operations. Nếu Generative AI giúp kỹ sư viết cấu hình, giải thích log và tạo tài liệu, thì Agentic AI giúp tự động hóa cả quy trình điều tra: từ đặt mục tiêu, chọn công cụ, thu thập dữ liệu, phân tích kết quả, cập nhật kế hoạch cho đến đề xuất hành động.

Tuy nhiên, càng tự động thì càng cần kiểm soát. Agentic AI trong môi trường production phải có giới hạn quyền, tool rõ ràng, cơ chế phê duyệt, log đầy đủ, khả năng rollback và audit trail.

Network Engineer trong kỷ nguyên mới không chỉ là người cấu hình thiết bị. Chúng ta sẽ là người thiết kế mục tiêu, kiểm soát tool, xác thực quyết định và đảm bảo AI hành động đúng với chính sách kỹ thuật, bảo mật và kinh doanh của doanh nghiệp.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next