ccna 2.0 - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11051
- Share
- Tweet
#1

ccna 2.0

8 hours ago

Do CCNA 2.0 bắt đầu có chủ đề về AI trong Network nên VnPro bắt đầu đăng bài về AI nhằm phục vụ các bạn. Cám ơn các bạn. Nguồn tư liệu, hình ảnh bài viết...đều thuộc Cisco.

Những Điều Cơ Bản Về AI và Machine Learning (ML) cho CCNA 2.0.

Tình huống thực tế trong công tác giám sát hạ tầng mạng.

Sau khi xử lý xong cảnh báo ban đầu, bạn bắt đầu tò mò: các công cụ AI thực sự đang làm gì phía sau hậu trường?
Trợ lý ngôn ngữ lớn LLM của bạn vừa đề cập đến một lỗi firmware, trong khi dashboard dường như “biết” rằng sự gia tăng lưu lượng mạng vừa rồi là bất thường. Bạn đã sử dụng các công cụ này khá thường xuyên nhưng chưa thực sự hiểu cơ chế hoạt động của chúng.
Khi tìm hiểu sâu hơn, bạn phát hiện:
Hệ thống phát hiện bất thường (Anomaly Detection) đang sử dụng các mô hình Machine Learning được huấn luyện trên nhiều tháng dữ liệu lịch sử lấy từ hạ tầng mạng.

Trợ lý AI đang sử dụng kết hợp giữa log lịch sử và các lời gọi API (API request) đến các mô hình ngôn ngữ lớn (LLM) để tạo ra các đề xuất và giải pháp. (Ghi chú của VnPro - chú ý việc gọi API đến các LLM có sẵn).

Bạn nhận ra rằng các công cụ AI hiện đại đang giải quyết nhiều bài toán mà các công cụ truyền thống gặp khó khăn. Nếu AI sẽ trở thành công cụ làm việc hằng ngày, bạn cần hiểu cách nó đưa ra quyết định để có thể tin tưởng và sử dụng hiệu quả.
Hãy nhìn vào quy trình vận hành mạng hiện nay. Chúng ta sử dụng:
Syslog

SNMP Trap

CLI Commands

Các hệ thống giám sát Monitoring như Solarwinds, Zabix, Prometheous/Grafana.

Những công cụ này rất mạnh, nhưng chúng phụ thuộc rất nhiều vào khả năng của con người trong việc phát hiện mẫu, kết nối các sự kiện và đưa ra quyết định, thường là trong điều kiện áp lực cao.
Quản trị mạng truyền thống chủ yếu mang tính phản ứng (Reactive). Thông thường diễn tiến như sau:
Hệ thống giám sát mạng phát cảnh báo.

Kỹ sư điều tra sự cố.

Thiếu ngữ cảnh tổng thể.

Không có cơ chế ưu tiên sự cố.

Hầu như không học được từ các sự cố trước đây nếu không có ai ghi chép và tài liệu hóa.

Mô hình này bộc lộ nhiều hạn chế khi độ phức tạp của hạ tầng mạng ngày càng tăng và chi phí downtime ngày càng đắt đỏ.
Scripts truyền thống cũng có giới hạn tương tự. Chúng chỉ làm đúng những gì bạn lập trình cho chúng. Nếu một tình huống chưa được dự đoán trước, script sẽ không thể xử lý.

AI và ML là gì?

Để áp dụng hiệu quả các công nghệ này, trước tiên chúng ta cần hiểu rõ hai khái niệm:
Artificial Intelligence (AI)

Machine Learning (ML)

Artificial Intelligence (AI)

AI là một thuật ngữ bao trùm dùng để mô tả các hệ thống có khả năng mô phỏng một số khía cạnh của trí thông minh con người, chẳng hạn như:
Suy luận (Reasoning)

Nhận thức (Perception)

Ra quyết định (Decision Making)

Hiểu ngôn ngữ tự nhiên (Natural Language Understanding)

Trong lĩnh vực vận hành mạng, AI không đơn thuần là tự động hóa thông minh, mà là các hệ thống có khả năng:
Hiểu ngữ cảnh (Context)

Diễn giải dữ liệu (Interpret)

Đề xuất hành động (Suggest Actions)

dựa trên nhiều nguồn thông tin khác nhau.
Ví dụ:
Một hệ thống AI-driven Network Management System (NMS) không chỉ phát hiện CPU của router tăng cao mà còn có thể:
So sánh tương quan với thay đổi cấu hình gần đây nhất.

Phân tích log hệ thống.

Phân tích lưu lượng tăng đột biến so với trạng thái bình thường.

Xác định nguyên nhân có khả năng cao nhất

Một số nền tảng còn tích hợp Natural Language Processing (NLP) cho phép kỹ sư mạng đặt câu hỏi theo ngôn ngữ tự nhiên:
Tại sao độ trễ ở Site A tăng cao?
Hệ thống có thể trả về câu trả lời dễ hiểu, kèm theo dữ liệu chẩn đoán và các bằng chứng hỗ trợ từ trí tuệ nhân tạo AI.

Machine Learning (ML)

Nếu AI là bức tranh tổng thể thì ML chính là một trong những công nghệ thực tế và quan trọng nhất giúp AI hoạt động.
Machine Learning là một nhánh của AI tập trung vào:
Nhận diện mẫu (Pattern Recognition)

Học từ dữ liệu lịch sử

Dự đoán hoặc đưa ra quyết định

Không cần được lập trình cụ thể cho từng tình huống

Các mô hình ML sử dụng các thuật toán đặc biệt để:
Thu thập dữ liệu.

Huấn luyện trên dữ liệu lịch sử.

Học các hành vi bình thường.

Tự động đưa ra dự đoán hoặc cảnh báo.

Trong thực tế, rất nhiều công cụ AI hiện nay được xây dựng trên nền tảng của ML.

Ví dụ trong vận hành mạng

Hãy xem ML như là động cơ phía sau hệ thống phát hiện bất thường Anomaly Detection.
Trước đây, các kỹ sư phải tự định nghĩa:
Bao nhiêu lưu lượng là bất thường?

CPU bao nhiêu phần trăm thì đáng lo?

Bao nhiêu kết nối đồng thời là nguy hiểm?

Nhưng với ML, bạn không cần phải xây dựng tất cả các ngưỡng này.
Mô hình ML có thể học được rằng:
Switch Access thường có lưu lượng tăng cao lúc 09:00 sáng khi nhân viên bắt đầu làm việc.

Lưu lượng cũng tăng vào khoảng 17:00 chiều khi đồng bộ dữ liệu, backup hoặc người dùng truy cập dịch vụ cuối ngày.

Sau khi học được hành vi bình thường này, nếu cùng một switch xuất hiện đột biến lưu lượng vào lúc 02:00 sáng, hệ thống có thể đánh dấu đây là một hành vi đáng ngờ và phát sinh cảnh báo.
Ví dụ thực tế:
Malware bắt đầu truyền dữ liệu ra ngoài (Data Exfiltration)

Backup job chạy sai lịch

Broadcast storm

Thiết bị IoT bị chiếm quyền điều khiển (Compromised IoT Device)

Nhân viên truy cập trái phép ngoài giờ làm việc

ML không biết trước các tình huống trên, nhưng nó biết rằng:
"Hành vi này khác với trạng thái bình thường mà tôi đã học được."
Đó chính là sức mạnh lớn nhất của Machine Learning.

Mối quan hệ giữa AI, ML và Data Science

Chúng ta có thể hình dung các lĩnh vực liên quan như sau:
Data Science → cung cấp dữ liệu và phương pháp phân tích
Machine Learning → học từ dữ liệu và xây dựng mô hình dự đoán
Artificial Intelligence → sử dụng ML cùng các công nghệ khác để tạo ra các hệ thống có khả năng suy luận, hiểu ngữ cảnh và hỗ trợ ra quyết định.
Trong vận hành mạng hiện đại (AIOps), ba lĩnh vực này đang kết hợp với nhau để chuyển đổi mô hình từ:
Reactive Operations
→ Chờ sự cố xảy ra rồi xử lý
sang
Predictive và Proactive Operations
→ Dự đoán, ngăn chặn và tự động đề xuất hành động trước khi sự cố ảnh hưởng đến người dùng.
Câu hỏi thảo luận: Trong hệ thống mạng của doanh nghiệp bạn, nếu có một switch Access đột nhiên tạo ra lưu lượng rất lớn lúc 02:00 sáng, bạn nghĩ đó có thể là hoạt động backup hợp lệ, một thiết bị bị nhiễm malware hay là dấu hiệu của một cuộc tấn công nội bộ? Bạn sẽ muốn AI và ML hỗ trợ mình như thế nào trong tình huống này?
Attached Files

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next