Sau khi đã chạy ngon lành Cisco Foundation AI Security Model trên máy cá nhân, bước tiếp theo rất tự nhiên là:
👉 Đưa nó lên cloud để chạy production hoặc lab tập trung.
Một trong những cách đơn giản và thực tế nhất là chạy model trên AWS EC2 bằng Ollama.
⚠️ Lưu ý:
AWS có rất nhiều cách để chạy AI, ví dụ như Amazon SageMaker (dịch vụ chuyên cho ML/AI). Tuy nhiên, cách dùng EC2 + Ollama là:
Bài này giả định bạn đã quen với EC2, VPC, SSH, Security Group nên mình chỉ tập trung vào các bước chính.
🖥️ Bước 1: Tạo EC2 Instance
Vào EC2 Dashboard → bấm Launch Instance.
🧱 Bước 2: Chọn AMI
Chọn image sau:
Đây là AMI đã chuẩn bị sẵn môi trường cho workload AI/GPU.
🎮 Bước 3: Chọn loại máy có GPU
Chọn instance type:
💰 Cảnh báo chi phí (giá US-East năm 2025):
👉 AWS tính tiền khi instance còn chạy, kể cả bạn không dùng.
👉 Nhớ STOP hoặc TERMINATE instance khi không cần để tránh cháy tiền.
🔐 Bước 4: Cấu hình Key, Network, IAM
Cấu hình:
🧱 Bước 5: Cấu hình Security Group
Thêm Inbound rules:
SSH TCP 22 YOUR_IP/32
Custom TCP 8084 YOUR_IP/32
🚨 TUYỆT ĐỐI KHÔNG dùng:
0.0.0.0/0
cho port 8084 → vì như vậy là public AI API ra toàn Internet, cực kỳ nguy hiểm.
⚙️ Bước 6: Add User Data (tự động cài Ollama)
Trong phần User Data, dán script sau:
🧠 Script này sẽ:
▶️ Bước 7: Launch instance
Bấm Launch và đợi instance về trạng thái:
🔑 Bước 8: SSH / SSM vào máy
Truy cập instance bằng:
🧩 Bước 9: Tạo file cấu hình model
Tạo file:
FoundSecModelfile
với nội dung:
🏗️ Bước 10: Chạy model
Chạy:
Bạn sẽ thấy prompt tương tác hiện ra.
Thử hỏi
>>> Give me a prompt to test for Prompt Injection vulnerability.
🌐 Bước 11: Gọi qua API kiểu OpenAI
Test bằng:
Nếu mọi thứ OK, bạn sẽ nhận được JSON response từ model.
🏁 Tổng kết
🎉 Vậy là bạn đã:
👉 Đưa nó lên cloud để chạy production hoặc lab tập trung.
Một trong những cách đơn giản và thực tế nhất là chạy model trên AWS EC2 bằng Ollama.
⚠️ Lưu ý:
AWS có rất nhiều cách để chạy AI, ví dụ như Amazon SageMaker (dịch vụ chuyên cho ML/AI). Tuy nhiên, cách dùng EC2 + Ollama là:
- ✅ Dễ hiểu, dễ triển khai
- ✅ Không cần background AI/ML quá sâu
- ✅ Tận dụng đúng những gì anh em đã làm ở local trong tutorial này
Bài này giả định bạn đã quen với EC2, VPC, SSH, Security Group nên mình chỉ tập trung vào các bước chính.
🖥️ Bước 1: Tạo EC2 Instance
Vào EC2 Dashboard → bấm Launch Instance.
🧱 Bước 2: Chọn AMI
Chọn image sau:
Deep Learning Base AMI with Single CUDA (Amazon Linux 2023)
Đây là AMI đã chuẩn bị sẵn môi trường cho workload AI/GPU.
🎮 Bước 3: Chọn loại máy có GPU
Chọn instance type:
g4dn.xlarge (có GPU NVIDIA T4)
💰 Cảnh báo chi phí (giá US-East năm 2025):
- 1 giờ ≈ $0.53
- 8 giờ (1 ngày làm việc) ≈ $4.21
- 24 giờ ≈ $12.62
👉 AWS tính tiền khi instance còn chạy, kể cả bạn không dùng.
👉 Nhớ STOP hoặc TERMINATE instance khi không cần để tránh cháy tiền.
🔐 Bước 4: Cấu hình Key, Network, IAM
Cấu hình:
- Key pair để SSH (hoặc dùng SSM)
- Network/VPC như bình thường
- IAM role nếu bạn dùng SSM hoặc service khác
🧱 Bước 5: Cấu hình Security Group
Thêm Inbound rules:
- 🔑 SSH (22): chỉ cho phép IP của bạn
- 🤖 Ollama API (8084): chỉ cho phép IP của bạn hoặc mạng tin cậy
SSH TCP 22 YOUR_IP/32
Custom TCP 8084 YOUR_IP/32
🚨 TUYỆT ĐỐI KHÔNG dùng:
0.0.0.0/0
cho port 8084 → vì như vậy là public AI API ra toàn Internet, cực kỳ nguy hiểm.
⚙️ Bước 6: Add User Data (tự động cài Ollama)
Trong phần User Data, dán script sau:
| #!/bin/bash # Update all packages yum update -y # Install Ollama curl -fsSL https://ollama.ai/install.sh | sh # Configure Ollama environment variables echo 'OLLAMA_HOST=0.0.0.0:8084' >> /etc/environment echo 'OLLAMA_FLASH_ATTENTION=1' >> /etc/environment echo 'OLLAMA_KV_CACHE_TYPE=q8_0' >> /etc/environment # Configure Ollama environment variables using systemd override mkdir -p /etc/systemd/system/ollama.service.d cat > /etc/systemd/system/ollama.service.d/override.conf << 'OLLAMA_EOF' [Service] Environment="OLLAMA_HOST=0.0.0.0:8084" Environment="OLLAMA_FLASH_ATTENTION=1" Environment="OLLAMA_KV_CACHE_TYPE=q8_0" OLLAMA_EOF # Reload systemd to pick up the override configuration systemctl daemon-reload # Start Ollama service with correct environment variables systemctl enable ollama systemctl start ollama |
- Update OS
- Cài Ollama
- Set biến môi trường để:
- Bật API trên port 8084
- Tối ưu performance cho GPU T4
- Tự start Ollama khi boot máy
▶️ Bước 7: Launch instance
Bấm Launch và đợi instance về trạng thái:
Running
🔑 Bước 8: SSH / SSM vào máy
Truy cập instance bằng:
- SSH
- hoặc AWS SSM
root hoặc ollama
🧩 Bước 9: Tạo file cấu hình model
Tạo file:
FoundSecModelfile
với nội dung:
| FROM hf.co/fdtn-ai/Foundation-Sec-1.1-8B-Instruct-Q8_0-GGUF TEMPLATE """<|system|> You are a cybersecurity expert. {{ if .System }}{{ .System }}{{ end }} <|user|> {{ .Prompt }} <|assistant|> """ PARAMETER temperature 0.3 |
🏗️ Bước 10: Chạy model
Chạy:
| ollama run found-sec-1.1-8b-instruct |
Thử hỏi
>>> Give me a prompt to test for Prompt Injection vulnerability.
🌐 Bước 11: Gọi qua API kiểu OpenAI
Test bằng:
| curl http://localhost:8084/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "found-sec-1.1-8b-instruct:latest", "messages": [ { "role": "user", "content": "Give me a prompt to test for Prompt Injection vulnerability." } ], "stream": false }' |
🏁 Tổng kết
🎉 Vậy là bạn đã:
- ✅ Chạy thành công Cisco Foundation AI Security Model trên AWS
- ✅ Có API tương thích OpenAI
- ✅ Sẵn sàng dùng cho:
- SOC nội bộ
- Automation phân tích alert
- AI Security Assistant
- Lab AI trong môi trường cloud riêng