Các Hình Thức Tấn Công Phổ Biến Nhắm Vào Trí Tuệ Nhân Tạo (AI) và Machine Learning (ML)

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 10215
- Share
- Tweet
#1

Các Hình Thức Tấn Công Phổ Biến Nhắm Vào Trí Tuệ Nhân Tạo (AI) và Machine Learning (ML)

16 hours ago

Trí tuệ nhân tạo (AI) và Machine Learning (ML) đang trở thành nền tảng của cuộc cách mạng số hiện đại, xuất hiện từ y tế, giáo dục, lập trình, mạng máy tính, an ninh mạng cho đến tài chính.

Nhưng cũng giống như mọi hệ thống CNTT khác, mô hình AI không “miễn nhiễm” trước tấn công.

Thực tế, AI mở ra một bề mặt tấn công (attack surface) hoàn toàn mới.

Nếu trước đây chúng ta bảo vệ ứng dụng, máy chủ, mạng và dữ liệu, thì nay còn phải bảo vệ mô hình (model), dữ liệu huấn luyện, suy luận (inference), API và chuỗi cung ứng AI (AI supply chain).

Dưới đây là những kiểu tấn công điển hình mà người làm AI, bảo mật hay hạ tầng AI cần hiểu.
1. Data Poisoning — Đầu độc dữ liệu huấn luyện

Đây là một trong những mối đe dọa nguy hiểm nhất.

Kẻ tấn công cố tình chèn dữ liệu sai lệch hoặc độc hại vào tập huấn luyện, làm mô hình học sai ngay từ đầu.

Có hai dạng phổ biến: Targeted Poisoning (Đầu độc có mục tiêu)

Mục tiêu là khiến mô hình xử lý sai một trường hợp cụ thể.

Ví dụ:
Hệ thống nhận diện malware học rằng một mẫu mã độc cụ thể là “an toàn”.

Mô hình xe tự lái nhận nhầm biển STOP thành biển tốc độ.

Đây là kiểu tấn công rất nguy hiểm vì sai lệch có chủ đích.
Exploratory Poisoning (Đầu độc làm suy giảm hiệu năng)

Không nhắm vào một đầu ra cụ thể, mà làm mô hình hoạt động kém đi nói chung:
Accuracy giảm

False positive tăng

False negative tăng

Giống như “nhiễu hóa” trí thông minh của mô hình.
2. Adversarial Attacks — Tấn công đối nghịch

Đây là loại tấn công nổi tiếng trong AI Security.

Ý tưởng:

Không cần phá mô hình, chỉ cần thay đổi đầu vào cực nhỏ để đánh lừa mô hình.

Ví dụ:

Một vài pixel được chỉnh sửa trên ảnh mèo có thể khiến model phân loại thành chó.

Con người không nhận ra khác biệt.

Model thì bị đánh lừa hoàn toàn. Ứng dụng nguy hiểm:
Face Recognition bypass

Evasion đối với AI-based IDS/IPS

Tấn công xe tự lái bằng biển báo giả

Đây là lý do “độ chính xác cao” không đồng nghĩa “an toàn”.
3. Model Inversion Attack — Trích ngược dữ liệu huấn luyện

Nghe giống reverse engineering cho AI.

Kẻ tấn công khai thác output của model để suy ra dữ liệu mà model từng học.

Ví dụ:
Tái tạo khuôn mặt từ mô hình nhận diện khuôn mặt

Suy luận hồ sơ bệnh nhân từ model y tế

Đây là rủi ro lớn về privacy.
4. Membership Inference Attack

Mục tiêu ở đây không phải tái tạo dữ liệu…

…mà xác định một dữ liệu cụ thể có từng nằm trong tập train hay không.

Ví dụ:

“Tài liệu sức khỏe của người này có từng dùng để train model không?”

Nếu trả lời được, đã vi phạm riêng tư.

Đây là lý do differential privacy ngày càng quan trọng.
5. Model Stealing (Model Extraction)

Đây là “ăn cắp trí tuệ” của mô hình.

Kẻ tấn công liên tục query API của model:

Input → Quan sát Output → Huấn luyện bản sao.

Kết quả:

Một mô hình clone gần tương đương original.

Nguy cơ:
Mất IP (Intellectual Property)

Trốn chi phí huấn luyện cực lớn

Dùng model clone cho mục đích xấu

Đặc biệt đáng lo với mô hình cung cấp qua API.
6. AI Trojan / Backdoor Attack

Còn gọi là trojan model.

Kẻ tấn công cài “cửa hậu” vào mô hình ngay lúc huấn luyện.

Bình thường model hoạt động hoàn hảo.

Nhưng khi xuất hiện trigger bí mật…

Model hành xử sai.

Ví dụ:
Chỉ khi có sticker nhỏ trên ảnh thì classifier sai.

Chỉ một prompt đặc biệt kích hoạt hành vi nguy hiểm ở LLM.

Giống malware dormant chờ trigger.

Rất khó phát hiện.
Đây thực chất là vấn đề CIA của AI

Ta có thể nhìn qua lăng kính bảo mật cổ điển: Integrity (Toàn vẹn)

Bị phá bởi:
Data poisoning

Adversarial examples

Backdoor attacks

Confidentiality (Bảo mật dữ liệu)

Bị đe dọa bởi:
Model inversion

Membership inference

Model stealing

Availability (Sẵn sàng)

Có thể bị ảnh hưởng bởi:
Poisoning làm model unusable

Adversarial inputs gây disruption

Phòng vệ như thế nào?

1. Secure Training Pipeline

Bảo vệ chuỗi cung ứng dữ liệu:
Data provenance

Dataset validation

Signed datasets

Supply chain security cho model artifacts

2. Adversarial Training

Huấn luyện model với dữ liệu đối nghịch để tăng robustness.

Giống “vaccination” cho AI.
3. Privacy-Preserving Techniques

Ví dụ:
Differential Privacy

Federated Learning

Homomorphic Encryption

Đây đang là hướng nghiên cứu rất mạnh.
4. Runtime Monitoring

Không chỉ bảo vệ lúc train.

Cần bảo vệ khi model vận hành:
Detect prompt abuse

Detect anomaly in inference

Monitor model drift

Guardrails cho GenAI

5. Regular Model Updates

Model cũng giống software:

Cần patch.

Cần update.

Cần lifecycle management.
Một góc nhìn quan trọng

Trong bảo mật truyền thống, chúng ta nói:

Protect the network.

Trong AI Security, tư duy phải mở rộng:

Protect the model, the data, the prompts, and the decisions.

Đây chính là lý do các khái niệm như:
AI Red Teaming

Model Risk Management (MRM)

AI Security Posture Management (AISPM)

Secure AI Supply Chain

đang trở thành chủ đề nóng.
Kết luận

AI không chỉ tạo ra khả năng mới…

Nó cũng tạo ra các kiểu tấn công mới.

Hiểu các mối đe dọa như:
Data Poisoning

Adversarial Attack

Model Inversion

Membership Inference

Model Stealing

AI Trojans

…là bước đầu tiên để xây dựng AI an toàn.

Nếu “data is the new oil”, thì với AI, model chính là tài sản chiến lược cần được bảo vệ.

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Previous template Next