Tương Lai Của Network Engineer Không Phải Là Gõ CLI, Mà Là Giao Mục Tiêu

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11179
- Share
- Tweet
#1

Tương Lai Của Network Engineer Không Phải Là Gõ CLI, Mà Là Giao Mục Tiêu

1 day ago

Từ ChatGPT Đến AI Agent: Tương Lai Của Network Engineer Không Phải Là Gõ CLI, Mà Là Giao Mục Tiêu

Nếu hôm nay bạn đến công ty và phải xử lý cùng lúc những việc sau:
Một site liên tục bị rớt VPN.

Cần triển khai VLAN mới cho 12 switch.

Một kỹ sư junior cần giúp viết ACL.

Bộ phận Compliance yêu cầu tổng hợp toàn bộ Change Ticket của quý trước.

Bạn sẽ làm gì?

Mười năm trước, câu trả lời là mở PuTTY, SSH vào từng thiết bị, chạy từng lệnh show, đọc log, tìm ticket cũ rồi mới bắt đầu xử lý.

Ngày nay, câu trả lời có thể đơn giản hơn nhiều:
"AI Agent, hãy điều tra nguyên nhân VPN bị rớt, thu thập bằng chứng và đề xuất phương án xử lý."

Đây chính là sự khác biệt giữa Generative AI và Agentic AI. Rule-Based Automation, Generative AI Và Agentic AI Khác Nhau Như Thế Nào?

Trong Network Operations hiện đại, ba khái niệm này thường bị nhầm lẫn.

Rule-Based Automation chỉ thực hiện đúng những gì kỹ sư đã lập trình sẵn.

Ví dụ:
Ansible Playbook.

Python sử dụng NETCONF hoặc RESTCONF.

Cisco Embedded Event Manager (EEM).

Nếu playbook yêu cầu cấu hình VLAN 20, hệ thống sẽ cấu hình VLAN 20. Nó không biết khi nào nên kiểm tra trunk, cũng không biết cần xem log hay mở ticket.

Generative AI tiến thêm một bước.

Bạn đưa prompt:
"Viết cấu hình OSPF cho ba router."

AI sẽ sinh ra đoạn cấu hình.

Hoặc bạn hỏi:
"Giải thích log này."

AI sẽ giải thích.

Nó rất giỏi tạo nội dung nhưng không tự đi lấy dữ liệu từ thiết bị.

Agentic AI hoạt động khác hoàn toàn.

Bạn không yêu cầu từng bước.

Bạn chỉ giao mục tiêu.

Ví dụ:
"Điều tra nguyên nhân interface error tăng bất thường ở Access Layer và đề xuất hướng xử lý."

Từ đó AI Agent sẽ tự quyết định:
Chạy lệnh nào.

Đọc log nào.

Kiểm tra telemetry nào.

Truy vấn ticket nào.

Khi nào cần dừng và xin ý kiến kỹ sư.

Đây là điểm tạo nên sự khác biệt. Ba Thành Phần Của Một AI Agent

Một hệ thống Agentic AI thường gồm ba thành phần. Agent

Đây là bộ não của hệ thống.

Thông thường là một LLM có khả năng suy luận và lập kế hoạch.

Agent không chỉ trả lời mà còn liên tục tự hỏi:
"Bước tiếp theo nên làm gì?"
Tools

Agent không tự truy cập thiết bị.

Nó sử dụng các công cụ đã được cấp quyền như:
Cisco pyATS.

NETCONF.

RESTCONF.

SSH.

Telemetry API.

Ticketing API.

Monitoring Platform.

CMDB.

ServiceNow.

Splunk.

Ví dụ trong buổi trình diễn của Cisco, AI Agent sử dụng Cisco pyATS để tự động chạy các lệnh show ip route, phân tích kết quả rồi so sánh routing table giữa hai router mà kỹ sư không cần SSH thủ công vào từng thiết bị. Feedback Loop

Sau mỗi lần gọi tool, Agent sẽ:
Đọc kết quả.

Điều chỉnh kế hoạch.

Tiếp tục thu thập dữ liệu nếu cần.

Quá trình này lặp đi lặp lại cho tới khi:
Đạt được mục tiêu.

Hoặc chuyển sự việc cho kỹ sư.

Đây chính là cách một kỹ sư mạng giàu kinh nghiệm vẫn làm mỗi ngày, chỉ khác là giờ AI thực hiện phần lớn các bước lặp lại. AI Agent Không Truy Cập Trực Tiếp Network

Một nguyên tắc rất quan trọng.

AI Agent không nên kết nối trực tiếp vào production network.

Mọi thao tác đều phải thông qua các Tool đã được định nghĩa trước.

Ví dụ:

AI không tự ý SSH vào router.

Nó gọi Tool:
Run Show Command

Query Telemetry

Open Ticket

Push Configuration

Sau khi Tool trả kết quả, Agent mới quyết định bước tiếp theo.

Thiết kế này giúp:
Kiểm soát quyền truy cập.

Ghi log toàn bộ hoạt động.

Audit dễ dàng.

Giảm rủi ro bảo mật.

5 Vị Trí AI Agent Tham Gia Trong NetOps Lifecycle

1. Sinh Và Kiểm Tra Cấu Hình

AI Agent đọc Change Request.

Sau đó:
Sinh cấu hình.

Kiểm tra syntax.

Chạy thử trên Digital Twin hoặc Lab.

So sánh với policy.

Ví dụ, trước khi triển khai ACL mới, AI có thể kiểm tra xem có rule nào làm mất kết nối dịch vụ hiện hữu hay không. 2. Incident Detection Và Triage

Ngay khi Monitoring phát hiện cảnh báo, AI Agent tự động:
Thu thập Syslog.

Kiểm tra Interface Counter.

Xem thay đổi topology.

Đối chiếu Change History.

Tìm RCA tương tự.

Sau đó đưa ra các giả thuyết theo xác suất.

Ví dụ:
MTU mismatch.

CRC Error.

Packet Loss từ ISP.

Kỹ sư chỉ cần xác nhận hoặc bác bỏ các giả thuyết này. 3. Human-in-the-Loop Remediation

Đây là nguyên tắc quan trọng nhất.

Giả sử AI đề xuất:
Restart phiên BGP.

Reapply Template.

Điều chỉnh QoS.

Clear Interface Counter.

AI sẽ không tự thực hiện ngay.

Thay vào đó:
Chuẩn bị cấu hình.

Hiển thị bằng chứng.

Chờ kỹ sư nhấn Approve.

Chỉ sau khi được phê duyệt, hệ thống mới thực hiện thay đổi và cập nhật kết quả vào Change Ticket.

Trong buổi trình diễn của Cisco, khi AI đề xuất cấu hình Loopback mới, Visual Studio Code yêu cầu người vận hành xác nhận trước khi đẩy cấu hình xuống router. Đây là ví dụ rất rõ về mô hình Human-in-the-Loop. 4. Documentation Automation

Sau khi Change hoàn tất hoặc Incident kết thúc, AI Agent có thể:
Viết Post Implementation Review.

Sinh bản nháp RCA.

Đính kèm Configuration Diff.

Chèn Syslog quan trọng.

Cập nhật Runbook.

Thay vì mất hàng chục phút hoặc hàng giờ viết tài liệu, kỹ sư chỉ cần rà soát và bổ sung các điểm cần thiết. 5. Knowledge Retrieval

Đây là nơi RAG phát huy tác dụng.

Thay vì tìm kiếm ở:
Ticket.

Wiki.

CMDB.

Syslog.

RCA.

Monitoring.

AI Agent tự tổng hợp tất cả.

Ví dụ:
"Lần gần nhất OSPF bị flapping ở Data Center là khi nào?"

Agent sẽ:
Tìm Ticket.

Đọc RCA.

So sánh Telemetry.

Đối chiếu trạng thái hiện tại.

Sau đó trả lời bằng một bản tóm tắt duy nhất. AI Agent Không Thay Thế Network Engineer

Điểm quan trọng nhất cần nhớ là:

AI Agent xử lý công việc.

Network Engineer chịu trách nhiệm.

Đây là lý do Human-in-the-Loop không phải giải pháp tạm thời.

Đó là nguyên tắc thiết kế.

Một AI Agent đủ tốt sẽ:
Thu thập dữ liệu.

Phân tích.

Đề xuất.

Chuẩn bị cấu hình.

Đánh giá rủi ro.

Nhưng quyết định cuối cùng vẫn thuộc về kỹ sư. Thực Tế Đã Bắt Đầu

Trong video "CCNA Ask the Expert", Cisco trình diễn việc kết hợp Visual Studio Code, GitHub Copilot, Model Context Protocol (MCP) và Cisco pyATS để AI có thể:
Chạy lệnh show trên router.

So sánh routing table giữa nhiều thiết bị.

Tạo cấu hình mới.

Xin xác nhận từ người vận hành.

Đẩy cấu hình xuống thiết bị.

Kiểm tra lại bằng lệnh ping.

Điều đáng chú ý là AI không hoạt động một mình. Nó phối hợp với các công cụ chuyên dụng thông qua MCP và pyATS, đúng với mô hình Agentic AI: LLM lập kế hoạch, Tool thực thi và Human phê duyệt.

Có thể trong vài năm tới, kỹ năng quan trọng nhất của Network Engineer sẽ không còn là nhớ thật nhiều câu lệnh CLI, mà là biết cách giao mục tiêu cho AI Agent, lựa chọn đúng công cụ, kiểm chứng kết quả và chịu trách nhiệm đối với mọi thay đổi trên hệ thống production.

Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next