Agentic AI Application Architecture: Khi AI bắt đầu vận hành hệ thống thay vì chỉ trả lời
Trong nhiều năm, cách chúng ta tương tác với AI tương đối đơn giản: nhập một câu lệnh, nhận một câu trả lời. Mô hình này rất hiệu quả cho việc tra cứu kiến thức, hỗ trợ viết nội dung, phân tích dữ liệu hoặc brainstorming ý tưởng. Tuy nhiên, một làn sóng kiến trúc mới đang xuất hiện và thay đổi hoàn toàn vai trò của AI trong môi trường doanh nghiệp: Agentic AI.
Nếu Generative AI truyền thống hoạt động theo mô hình Prompt → Model → Response, thì Agentic AI hoạt động theo mô hình hoàn toàn khác: Goal → Plan → Execute → Observe → Evaluate → Repeat.
Nói cách khác, AI không còn đơn thuần là một chatbot biết trả lời, mà bắt đầu trở thành một thực thể phần mềm có khả năng hành động. Nó có thể lập kế hoạch, gọi công cụ, truy cập hệ thống, thu thập dữ liệu, đánh giá kết quả và quyết định bước tiếp theo. Với các kỹ sư DevOps, NetDevOps, SRE hay SecOps, đây là một bước chuyển kiến trúc cực kỳ đáng chú ý.
Hình kiến trúc “Agentic AI Application Architecture and Interaction Flow” mô tả khá rõ cách một hệ thống như vậy vận hành.
Từ chatbot sang autonomous operator
Điểm khác biệt cốt lõi giữa chatbot và agent nằm ở khả năng hành động.
Một chatbot thông thường nhận câu hỏi như:
"CPU server production đang cao, nguyên nhân là gì?"
Sau đó AI sẽ đưa ra các giả thuyết hoặc hướng dẫn kiểm tra.
Trong khi đó, một AI agent có thể xử lý theo cách hoàn toàn khác:
Đây không còn là “AI hỗ trợ trả lời”, mà là AI hỗ trợ vận hành thực tế.
Kiến trúc tổng thể của Agentic AI
Trong sơ đồ, kiến trúc được chia thành ba khối lớn:
Ba thành phần này phối hợp với nhau để tạo ra một vòng lặp hành động khép kín. Foundation Model – bộ não suy luận
Khối bên phải là mô hình AI trung tâm.
Đây có thể là:
Foundation model chịu trách nhiệm reasoning.
Nó hiểu mục tiêu người dùng, phân tích ngữ cảnh, xác định công cụ nào cần sử dụng và tổng hợp phản hồi cuối cùng.
Tuy nhiên có một điểm rất quan trọng:
Model không trực tiếp thao tác lên hệ thống.
Điều này cực kỳ cần thiết trong thiết kế enterprise.
Ví dụ, nếu người dùng yêu cầu:
"Kiểm tra tất cả Linux server production, nếu CPU trên 85% thì tạo incident ticket."
Model có thể hiểu rằng cần:
Nhưng model không tự SSH vào server hoặc gọi ServiceNow API.
Việc thực thi thuộc về tầng tool execution.
Đây là nguyên tắc tách biệt giữa decision layer và execution layer.
Prompt giờ không còn chỉ là câu hỏi
Trong Agentic AI, prompt không đơn giản là một câu lệnh văn bản.
Nó trở thành sự kết hợp giữa:
Ví dụ:
Investigate abnormal CPU spike in production.
Available tools:
- prometheus_query
- ssh_exec
- servicenow_create_incident
- slack_notify
Khi nhận prompt này, AI không chỉ sinh ra câu trả lời dạng text.
Nó bắt đầu reasoning:
Đầu tiên nên query metrics.
Nếu CPU spike là thật, SSH vào máy.
Nếu ảnh hưởng nghiêm trọng, tạo incident.
Sau đó notify team.
Chính tại điểm này, chatbot biến thành agent.
MCP-enabled Client: tầng orchestration
Khối trung tâm trong kiến trúc là MCP-enabled Client.
Đây là thành phần cực kỳ quan trọng nhưng thường bị hiểu nhầm.
Nó không phải model.
Nó cũng không phải tool.
Nó là tầng điều phối.
Nhiệm vụ của nó bao gồm:
Có thể xem nó như runtime của agent.
Trong hệ thống thực tế, đây có thể là:
Nếu model là bộ não, thì MCP-enabled Client chính là hệ thần kinh điều phối hành động.
MCP là gì và vì sao lại quan trọng?
Trong sơ đồ, giữa MCP Client và MCP Server có giao tiếp JSON-RPC.
Điều này cho thấy các công cụ được truy cập thông qua một protocol chuẩn hóa.
MCP là viết tắt của Model Context Protocol.
Mục tiêu của MCP là giải quyết một bài toán lớn trong AI engineering:
Làm sao để model truy cập tool một cách chuẩn hóa thay vì mỗi integration viết riêng?
Nếu không có chuẩn này, mỗi lần AI cần kết nối:
đội engineering phải xây adapter riêng.
MCP tạo ra abstraction layer thống nhất.
Model không cần biết REST API cụ thể, authentication flow, request payload hay retry logic.
Nó chỉ cần biết:
"Có tool này. Đây là input schema. Đây là output schema."
Về mặt kiến trúc, MCP giống như USB-C cho AI tools.
MCP Server: nơi AI chạm vào thế giới thật
MCP Server là nơi chứa các công cụ mà AI có thể gọi.
Ví dụ:
get_cpu_metrics()
query_splunk()
restart_service()
terraform_plan()
open_jira_ticket()
deploy_k8s_manifest()
Những tool này có thể wrap rất nhiều backend khác nhau:
MCP server đóng vai trò abstraction gateway.
Nó biến các khả năng vận hành thật thành các callable interface cho AI.
Đây là điểm AI bắt đầu tương tác với infrastructure thực tế.
Luồng xử lý thực tế
Hãy hình dung một tình huống production incident.
Người dùng nhập:
Investigate production outage.
Foundation model phân tích vấn đề và xác định cần metrics.
Nó yêu cầu chạy tool:
query_prometheus()
MCP-enabled client nhận yêu cầu này và chuyển qua MCP server bằng JSON-RPC.
MCP server gọi Prometheus API thật.
Kết quả trả về:
Node CPU = 96%
Memory = 78%
Model đánh giá dữ liệu và quyết định bước tiếp theo:
SSH vào host để kiểm tra process.
Tool call mới được tạo:
ssh_exec()
Chu trình tiếp tục cho đến khi objective đạt được.
Đây chính là vòng lặp agent execution.
Human approval trong enterprise AI
Một chi tiết rất quan trọng trong sơ đồ là Approvals or Elicitations.
Điều này phản ánh một thực tế:
Không phải hành động nào AI cũng được phép tự thực hiện.
Ví dụ:
AI có thể được phép:
Nhưng các hành động như:
thường cần phê duyệt của con người.
Đây là mô hình human-in-the-loop governance.
Trong enterprise, điều này giúp đảm bảo:
AI mạnh đến đâu cũng phải đặt trong khuôn khổ kiểm soát.
Vì sao DevOps và NetDevOps cần quan tâm?
Agentic AI map gần như trực tiếp vào workflow vận hành hiện đại.
Trong DevOps, nó có thể hỗ trợ CI/CD troubleshooting, deployment validation hoặc infrastructure drift analysis.
Trong SecOps, nó có thể query SIEM, enrich IOC, phân tích incident context và hỗ trợ IR workflow.
Trong NetDevOps, nó có thể truy vấn telemetry, xác minh routing state, kiểm tra interface health và đề xuất remediation.
Trong SRE, nó đặc biệt phù hợp với incident response, SLO investigation, capacity planning và operational diagnostics.
Điểm mấu chốt là:
AI không thay thế platform engineering.
AI làm platform engineering mạnh hơn.
Kết luận
Agentic AI không đơn giản là Generative AI phiên bản nâng cấp.
Đây là sự chuyển dịch kiến trúc từ mô hình:
AI as conversation
sang:
AI as operational actor
Khi kết hợp foundation model, orchestration runtime, MCP protocol và enterprise governance, AI bắt đầu có khả năng tương tác với hệ thống thật.
Với DevOps, SecDevOps, SRE và NetDevOps, đây không còn là chủ đề nghiên cứu.
Đây là hướng phát triển hạ tầng vận hành trong những năm tới.
Người hiểu automation, APIs, infrastructure, observability và governance sẽ là những người xây nên thế hệ AI operations platform tiếp theo.
Trong nhiều năm, cách chúng ta tương tác với AI tương đối đơn giản: nhập một câu lệnh, nhận một câu trả lời. Mô hình này rất hiệu quả cho việc tra cứu kiến thức, hỗ trợ viết nội dung, phân tích dữ liệu hoặc brainstorming ý tưởng. Tuy nhiên, một làn sóng kiến trúc mới đang xuất hiện và thay đổi hoàn toàn vai trò của AI trong môi trường doanh nghiệp: Agentic AI.
Nếu Generative AI truyền thống hoạt động theo mô hình Prompt → Model → Response, thì Agentic AI hoạt động theo mô hình hoàn toàn khác: Goal → Plan → Execute → Observe → Evaluate → Repeat.
Nói cách khác, AI không còn đơn thuần là một chatbot biết trả lời, mà bắt đầu trở thành một thực thể phần mềm có khả năng hành động. Nó có thể lập kế hoạch, gọi công cụ, truy cập hệ thống, thu thập dữ liệu, đánh giá kết quả và quyết định bước tiếp theo. Với các kỹ sư DevOps, NetDevOps, SRE hay SecOps, đây là một bước chuyển kiến trúc cực kỳ đáng chú ý.
Hình kiến trúc “Agentic AI Application Architecture and Interaction Flow” mô tả khá rõ cách một hệ thống như vậy vận hành.
Từ chatbot sang autonomous operator
Điểm khác biệt cốt lõi giữa chatbot và agent nằm ở khả năng hành động.
Một chatbot thông thường nhận câu hỏi như:
"CPU server production đang cao, nguyên nhân là gì?"
Sau đó AI sẽ đưa ra các giả thuyết hoặc hướng dẫn kiểm tra.
Trong khi đó, một AI agent có thể xử lý theo cách hoàn toàn khác:
- tự truy vấn Prometheus để lấy CPU metrics
- SSH vào server để kiểm tra process
- phân tích log
- đối chiếu với deployment gần nhất
- nếu cần, mở incident ticket
- gửi cảnh báo tới Slack
Đây không còn là “AI hỗ trợ trả lời”, mà là AI hỗ trợ vận hành thực tế.
Kiến trúc tổng thể của Agentic AI
Trong sơ đồ, kiến trúc được chia thành ba khối lớn:
- Foundation Model
- MCP-enabled Client
- MCP Server
Ba thành phần này phối hợp với nhau để tạo ra một vòng lặp hành động khép kín. Foundation Model – bộ não suy luận
Khối bên phải là mô hình AI trung tâm.
Đây có thể là:
- GPT
- Claude
- Gemini
- Llama
- Mistral
- hoặc private enterprise LLM
Foundation model chịu trách nhiệm reasoning.
Nó hiểu mục tiêu người dùng, phân tích ngữ cảnh, xác định công cụ nào cần sử dụng và tổng hợp phản hồi cuối cùng.
Tuy nhiên có một điểm rất quan trọng:
Model không trực tiếp thao tác lên hệ thống.
Điều này cực kỳ cần thiết trong thiết kế enterprise.
Ví dụ, nếu người dùng yêu cầu:
"Kiểm tra tất cả Linux server production, nếu CPU trên 85% thì tạo incident ticket."
Model có thể hiểu rằng cần:
- truy cập inventory server
- lấy CPU metrics
- so sánh threshold
- tích hợp ITSM
Nhưng model không tự SSH vào server hoặc gọi ServiceNow API.
Việc thực thi thuộc về tầng tool execution.
Đây là nguyên tắc tách biệt giữa decision layer và execution layer.
Prompt giờ không còn chỉ là câu hỏi
Trong Agentic AI, prompt không đơn giản là một câu lệnh văn bản.
Nó trở thành sự kết hợp giữa:
- mục tiêu
- ngữ cảnh
- danh sách công cụ khả dụng
Ví dụ:
Investigate abnormal CPU spike in production.
Available tools:
- prometheus_query
- ssh_exec
- servicenow_create_incident
- slack_notify
Khi nhận prompt này, AI không chỉ sinh ra câu trả lời dạng text.
Nó bắt đầu reasoning:
Đầu tiên nên query metrics.
Nếu CPU spike là thật, SSH vào máy.
Nếu ảnh hưởng nghiêm trọng, tạo incident.
Sau đó notify team.
Chính tại điểm này, chatbot biến thành agent.
MCP-enabled Client: tầng orchestration
Khối trung tâm trong kiến trúc là MCP-enabled Client.
Đây là thành phần cực kỳ quan trọng nhưng thường bị hiểu nhầm.
Nó không phải model.
Nó cũng không phải tool.
Nó là tầng điều phối.
Nhiệm vụ của nó bao gồm:
- gửi prompt tới model
- expose tool definitions cho model
- nhận yêu cầu tool invocation
- thực thi tool
- thu kết quả
- gửi kết quả lại cho model
- tiếp tục vòng lặp
Có thể xem nó như runtime của agent.
Trong hệ thống thực tế, đây có thể là:
- LangGraph
- OpenAI Agents SDK
- Semantic Kernel
- CrewAI runtime
- custom orchestrator nội bộ
Nếu model là bộ não, thì MCP-enabled Client chính là hệ thần kinh điều phối hành động.
MCP là gì và vì sao lại quan trọng?
Trong sơ đồ, giữa MCP Client và MCP Server có giao tiếp JSON-RPC.
Điều này cho thấy các công cụ được truy cập thông qua một protocol chuẩn hóa.
MCP là viết tắt của Model Context Protocol.
Mục tiêu của MCP là giải quyết một bài toán lớn trong AI engineering:
Làm sao để model truy cập tool một cách chuẩn hóa thay vì mỗi integration viết riêng?
Nếu không có chuẩn này, mỗi lần AI cần kết nối:
- GitHub
- filesystem
- database
- Jira
- cloud API
- Kubernetes
- ServiceNow
đội engineering phải xây adapter riêng.
MCP tạo ra abstraction layer thống nhất.
Model không cần biết REST API cụ thể, authentication flow, request payload hay retry logic.
Nó chỉ cần biết:
"Có tool này. Đây là input schema. Đây là output schema."
Về mặt kiến trúc, MCP giống như USB-C cho AI tools.
MCP Server: nơi AI chạm vào thế giới thật
MCP Server là nơi chứa các công cụ mà AI có thể gọi.
Ví dụ:
get_cpu_metrics()
query_splunk()
restart_service()
terraform_plan()
open_jira_ticket()
deploy_k8s_manifest()
Những tool này có thể wrap rất nhiều backend khác nhau:
- REST API
- SSH
- database connector
- cloud SDK
- Terraform
- Kubernetes API
- SIEM integrations
MCP server đóng vai trò abstraction gateway.
Nó biến các khả năng vận hành thật thành các callable interface cho AI.
Đây là điểm AI bắt đầu tương tác với infrastructure thực tế.
Luồng xử lý thực tế
Hãy hình dung một tình huống production incident.
Người dùng nhập:
Investigate production outage.
Foundation model phân tích vấn đề và xác định cần metrics.
Nó yêu cầu chạy tool:
query_prometheus()
MCP-enabled client nhận yêu cầu này và chuyển qua MCP server bằng JSON-RPC.
MCP server gọi Prometheus API thật.
Kết quả trả về:
Node CPU = 96%
Memory = 78%
Model đánh giá dữ liệu và quyết định bước tiếp theo:
SSH vào host để kiểm tra process.
Tool call mới được tạo:
ssh_exec()
Chu trình tiếp tục cho đến khi objective đạt được.
Đây chính là vòng lặp agent execution.
Human approval trong enterprise AI
Một chi tiết rất quan trọng trong sơ đồ là Approvals or Elicitations.
Điều này phản ánh một thực tế:
Không phải hành động nào AI cũng được phép tự thực hiện.
Ví dụ:
AI có thể được phép:
- đọc metrics
- truy vấn log
- lấy inventory
- phân tích configuration
Nhưng các hành động như:
- restart production service
- push firewall policy
- deploy infrastructure change
- delete cloud resources
thường cần phê duyệt của con người.
Đây là mô hình human-in-the-loop governance.
Trong enterprise, điều này giúp đảm bảo:
- auditability
- compliance
- blast radius control
- operational safety
- change governance
AI mạnh đến đâu cũng phải đặt trong khuôn khổ kiểm soát.
Vì sao DevOps và NetDevOps cần quan tâm?
Agentic AI map gần như trực tiếp vào workflow vận hành hiện đại.
Trong DevOps, nó có thể hỗ trợ CI/CD troubleshooting, deployment validation hoặc infrastructure drift analysis.
Trong SecOps, nó có thể query SIEM, enrich IOC, phân tích incident context và hỗ trợ IR workflow.
Trong NetDevOps, nó có thể truy vấn telemetry, xác minh routing state, kiểm tra interface health và đề xuất remediation.
Trong SRE, nó đặc biệt phù hợp với incident response, SLO investigation, capacity planning và operational diagnostics.
Điểm mấu chốt là:
AI không thay thế platform engineering.
AI làm platform engineering mạnh hơn.
Kết luận
Agentic AI không đơn giản là Generative AI phiên bản nâng cấp.
Đây là sự chuyển dịch kiến trúc từ mô hình:
AI as conversation
sang:
AI as operational actor
Khi kết hợp foundation model, orchestration runtime, MCP protocol và enterprise governance, AI bắt đầu có khả năng tương tác với hệ thống thật.
Với DevOps, SecDevOps, SRE và NetDevOps, đây không còn là chủ đề nghiên cứu.
Đây là hướng phát triển hạ tầng vận hành trong những năm tới.
Người hiểu automation, APIs, infrastructure, observability và governance sẽ là những người xây nên thế hệ AI operations platform tiếp theo.