Do CCNA 2.0 bắt đầu có chủ đề về AI trong Network nên VnPro bắt đầu đăng bài về AI nhằm phục vụ các bạn. Cám ơn các bạn. Nguồn tư liệu, hình ảnh bài viết...đều thuộc Cisco.
Những Điều Cơ Bản Về AI và Machine Learning (ML) cho CCNA 2.0.
Tình huống thực tế trong công tác giám sát hạ tầng mạng.
Sau khi xử lý xong cảnh báo ban đầu, bạn bắt đầu tò mò: các công cụ AI thực sự đang làm gì phía sau hậu trường?
Trợ lý ngôn ngữ lớn LLM của bạn vừa đề cập đến một lỗi firmware, trong khi dashboard dường như “biết” rằng sự gia tăng lưu lượng mạng vừa rồi là bất thường. Bạn đã sử dụng các công cụ này khá thường xuyên nhưng chưa thực sự hiểu cơ chế hoạt động của chúng.
Khi tìm hiểu sâu hơn, bạn phát hiện:
Hãy nhìn vào quy trình vận hành mạng hiện nay. Chúng ta sử dụng:
Quản trị mạng truyền thống chủ yếu mang tính phản ứng (Reactive). Thông thường diễn tiến như sau:
Scripts truyền thống cũng có giới hạn tương tự. Chúng chỉ làm đúng những gì bạn lập trình cho chúng. Nếu một tình huống chưa được dự đoán trước, script sẽ không thể xử lý.
AI và ML là gì?
Để áp dụng hiệu quả các công nghệ này, trước tiên chúng ta cần hiểu rõ hai khái niệm:
AI là một thuật ngữ bao trùm dùng để mô tả các hệ thống có khả năng mô phỏng một số khía cạnh của trí thông minh con người, chẳng hạn như:
Ví dụ:
Một hệ thống AI-driven Network Management System (NMS) không chỉ phát hiện CPU của router tăng cao mà còn có thể:
Tại sao độ trễ ở Site A tăng cao?
Hệ thống có thể trả về câu trả lời dễ hiểu, kèm theo dữ liệu chẩn đoán và các bằng chứng hỗ trợ từ trí tuệ nhân tạo AI.
Machine Learning (ML)
Nếu AI là bức tranh tổng thể thì ML chính là một trong những công nghệ thực tế và quan trọng nhất giúp AI hoạt động.
Machine Learning là một nhánh của AI tập trung vào:
Ví dụ trong vận hành mạng
Hãy xem ML như là động cơ phía sau hệ thống phát hiện bất thường Anomaly Detection.
Trước đây, các kỹ sư phải tự định nghĩa:
Mô hình ML có thể học được rằng:
Ví dụ thực tế:
"Hành vi này khác với trạng thái bình thường mà tôi đã học được."
Đó chính là sức mạnh lớn nhất của Machine Learning.
Mối quan hệ giữa AI, ML và Data Science
Chúng ta có thể hình dung các lĩnh vực liên quan như sau:
Data Science → cung cấp dữ liệu và phương pháp phân tích
Machine Learning → học từ dữ liệu và xây dựng mô hình dự đoán
Artificial Intelligence → sử dụng ML cùng các công nghệ khác để tạo ra các hệ thống có khả năng suy luận, hiểu ngữ cảnh và hỗ trợ ra quyết định.
Trong vận hành mạng hiện đại (AIOps), ba lĩnh vực này đang kết hợp với nhau để chuyển đổi mô hình từ:
Reactive Operations
→ Chờ sự cố xảy ra rồi xử lý
sang
Predictive và Proactive Operations
→ Dự đoán, ngăn chặn và tự động đề xuất hành động trước khi sự cố ảnh hưởng đến người dùng.
Câu hỏi thảo luận: Trong hệ thống mạng của doanh nghiệp bạn, nếu có một switch Access đột nhiên tạo ra lưu lượng rất lớn lúc 02:00 sáng, bạn nghĩ đó có thể là hoạt động backup hợp lệ, một thiết bị bị nhiễm malware hay là dấu hiệu của một cuộc tấn công nội bộ? Bạn sẽ muốn AI và ML hỗ trợ mình như thế nào trong tình huống này?
Những Điều Cơ Bản Về AI và Machine Learning (ML) cho CCNA 2.0.
Tình huống thực tế trong công tác giám sát hạ tầng mạng.
Sau khi xử lý xong cảnh báo ban đầu, bạn bắt đầu tò mò: các công cụ AI thực sự đang làm gì phía sau hậu trường?
Trợ lý ngôn ngữ lớn LLM của bạn vừa đề cập đến một lỗi firmware, trong khi dashboard dường như “biết” rằng sự gia tăng lưu lượng mạng vừa rồi là bất thường. Bạn đã sử dụng các công cụ này khá thường xuyên nhưng chưa thực sự hiểu cơ chế hoạt động của chúng.
Khi tìm hiểu sâu hơn, bạn phát hiện:
- Hệ thống phát hiện bất thường (Anomaly Detection) đang sử dụng các mô hình Machine Learning được huấn luyện trên nhiều tháng dữ liệu lịch sử lấy từ hạ tầng mạng.
- Trợ lý AI đang sử dụng kết hợp giữa log lịch sử và các lời gọi API (API request) đến các mô hình ngôn ngữ lớn (LLM) để tạo ra các đề xuất và giải pháp. (Ghi chú của VnPro - chú ý việc gọi API đến các LLM có sẵn).
Hãy nhìn vào quy trình vận hành mạng hiện nay. Chúng ta sử dụng:
- Syslog
- SNMP Trap
- CLI Commands
- Các hệ thống giám sát Monitoring như Solarwinds, Zabix, Prometheous/Grafana.
Quản trị mạng truyền thống chủ yếu mang tính phản ứng (Reactive). Thông thường diễn tiến như sau:
- Hệ thống giám sát mạng phát cảnh báo.
- Kỹ sư điều tra sự cố.
- Thiếu ngữ cảnh tổng thể.
- Không có cơ chế ưu tiên sự cố.
- Hầu như không học được từ các sự cố trước đây nếu không có ai ghi chép và tài liệu hóa.
Scripts truyền thống cũng có giới hạn tương tự. Chúng chỉ làm đúng những gì bạn lập trình cho chúng. Nếu một tình huống chưa được dự đoán trước, script sẽ không thể xử lý.
AI và ML là gì?
Để áp dụng hiệu quả các công nghệ này, trước tiên chúng ta cần hiểu rõ hai khái niệm:
- Artificial Intelligence (AI)
- Machine Learning (ML)
AI là một thuật ngữ bao trùm dùng để mô tả các hệ thống có khả năng mô phỏng một số khía cạnh của trí thông minh con người, chẳng hạn như:
- Suy luận (Reasoning)
- Nhận thức (Perception)
- Ra quyết định (Decision Making)
- Hiểu ngôn ngữ tự nhiên (Natural Language Understanding)
- Hiểu ngữ cảnh (Context)
- Diễn giải dữ liệu (Interpret)
- Đề xuất hành động (Suggest Actions)
Ví dụ:
Một hệ thống AI-driven Network Management System (NMS) không chỉ phát hiện CPU của router tăng cao mà còn có thể:
- So sánh tương quan với thay đổi cấu hình gần đây nhất.
- Phân tích log hệ thống.
- Phân tích lưu lượng tăng đột biến so với trạng thái bình thường.
- Xác định nguyên nhân có khả năng cao nhất
Tại sao độ trễ ở Site A tăng cao?
Hệ thống có thể trả về câu trả lời dễ hiểu, kèm theo dữ liệu chẩn đoán và các bằng chứng hỗ trợ từ trí tuệ nhân tạo AI.
Machine Learning (ML)
Nếu AI là bức tranh tổng thể thì ML chính là một trong những công nghệ thực tế và quan trọng nhất giúp AI hoạt động.
Machine Learning là một nhánh của AI tập trung vào:
- Nhận diện mẫu (Pattern Recognition)
- Học từ dữ liệu lịch sử
- Dự đoán hoặc đưa ra quyết định
- Không cần được lập trình cụ thể cho từng tình huống
- Thu thập dữ liệu.
- Huấn luyện trên dữ liệu lịch sử.
- Học các hành vi bình thường.
- Tự động đưa ra dự đoán hoặc cảnh báo.
Ví dụ trong vận hành mạng
Hãy xem ML như là động cơ phía sau hệ thống phát hiện bất thường Anomaly Detection.
Trước đây, các kỹ sư phải tự định nghĩa:
- Bao nhiêu lưu lượng là bất thường?
- CPU bao nhiêu phần trăm thì đáng lo?
- Bao nhiêu kết nối đồng thời là nguy hiểm?
Mô hình ML có thể học được rằng:
- Switch Access thường có lưu lượng tăng cao lúc 09:00 sáng khi nhân viên bắt đầu làm việc.
- Lưu lượng cũng tăng vào khoảng 17:00 chiều khi đồng bộ dữ liệu, backup hoặc người dùng truy cập dịch vụ cuối ngày.
Ví dụ thực tế:
- Malware bắt đầu truyền dữ liệu ra ngoài (Data Exfiltration)
- Backup job chạy sai lịch
- Broadcast storm
- Thiết bị IoT bị chiếm quyền điều khiển (Compromised IoT Device)
- Nhân viên truy cập trái phép ngoài giờ làm việc
"Hành vi này khác với trạng thái bình thường mà tôi đã học được."
Đó chính là sức mạnh lớn nhất của Machine Learning.
Mối quan hệ giữa AI, ML và Data Science
Chúng ta có thể hình dung các lĩnh vực liên quan như sau:
Data Science → cung cấp dữ liệu và phương pháp phân tích
Machine Learning → học từ dữ liệu và xây dựng mô hình dự đoán
Artificial Intelligence → sử dụng ML cùng các công nghệ khác để tạo ra các hệ thống có khả năng suy luận, hiểu ngữ cảnh và hỗ trợ ra quyết định.
Trong vận hành mạng hiện đại (AIOps), ba lĩnh vực này đang kết hợp với nhau để chuyển đổi mô hình từ:
Reactive Operations
→ Chờ sự cố xảy ra rồi xử lý
sang
Predictive và Proactive Operations
→ Dự đoán, ngăn chặn và tự động đề xuất hành động trước khi sự cố ảnh hưởng đến người dùng.
Câu hỏi thảo luận: Trong hệ thống mạng của doanh nghiệp bạn, nếu có một switch Access đột nhiên tạo ra lưu lượng rất lớn lúc 02:00 sáng, bạn nghĩ đó có thể là hoạt động backup hợp lệ, một thiết bị bị nhiễm malware hay là dấu hiệu của một cuộc tấn công nội bộ? Bạn sẽ muốn AI và ML hỗ trợ mình như thế nào trong tình huống này?