Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Các Hình Thức Tấn Công Phổ Biến Nhắm Vào Trí Tuệ Nhân Tạo (AI) và Machine Learning (ML)

    Trí tuệ nhân tạo (AI) và Machine Learning (ML) đang trở thành nền tảng của cuộc cách mạng số hiện đại, xuất hiện từ y tế, giáo dục, lập trình, mạng máy tính, an ninh mạng cho đến tài chính.

    Nhưng cũng giống như mọi hệ thống CNTT khác, mô hình AI không “miễn nhiễm” trước tấn công.

    Thực tế, AI mở ra một bề mặt tấn công (attack surface) hoàn toàn mới.

    Nếu trước đây chúng ta bảo vệ ứng dụng, máy chủ, mạng và dữ liệu, thì nay còn phải bảo vệ mô hình (model), dữ liệu huấn luyện, suy luận (inference), API và chuỗi cung ứng AI (AI supply chain).

    Dưới đây là những kiểu tấn công điển hình mà người làm AI, bảo mật hay hạ tầng AI cần hiểu.
    1. Data Poisoning — Đầu độc dữ liệu huấn luyện


    Đây là một trong những mối đe dọa nguy hiểm nhất.

    Kẻ tấn công cố tình chèn dữ liệu sai lệch hoặc độc hại vào tập huấn luyện, làm mô hình học sai ngay từ đầu.

    Có hai dạng phổ biến: Targeted Poisoning (Đầu độc có mục tiêu)


    Mục tiêu là khiến mô hình xử lý sai một trường hợp cụ thể.

    Ví dụ:
    • Hệ thống nhận diện malware học rằng một mẫu mã độc cụ thể là “an toàn”.
    • Mô hình xe tự lái nhận nhầm biển STOP thành biển tốc độ.

    Đây là kiểu tấn công rất nguy hiểm vì sai lệch có chủ đích.
    Exploratory Poisoning (Đầu độc làm suy giảm hiệu năng)


    Không nhắm vào một đầu ra cụ thể, mà làm mô hình hoạt động kém đi nói chung:
    • Accuracy giảm
    • False positive tăng
    • False negative tăng

    Giống như “nhiễu hóa” trí thông minh của mô hình.
    2. Adversarial Attacks — Tấn công đối nghịch


    Đây là loại tấn công nổi tiếng trong AI Security.

    Ý tưởng:

    Không cần phá mô hình, chỉ cần thay đổi đầu vào cực nhỏ để đánh lừa mô hình.

    Ví dụ:

    Một vài pixel được chỉnh sửa trên ảnh mèo có thể khiến model phân loại thành chó.

    Con người không nhận ra khác biệt.

    Model thì bị đánh lừa hoàn toàn. Ứng dụng nguy hiểm:
    • Face Recognition bypass
    • Evasion đối với AI-based IDS/IPS
    • Tấn công xe tự lái bằng biển báo giả

    Đây là lý do “độ chính xác cao” không đồng nghĩa “an toàn”.
    3. Model Inversion Attack — Trích ngược dữ liệu huấn luyện


    Nghe giống reverse engineering cho AI.

    Kẻ tấn công khai thác output của model để suy ra dữ liệu mà model từng học.

    Ví dụ:
    • Tái tạo khuôn mặt từ mô hình nhận diện khuôn mặt
    • Suy luận hồ sơ bệnh nhân từ model y tế

    Đây là rủi ro lớn về privacy.
    4. Membership Inference Attack


    Mục tiêu ở đây không phải tái tạo dữ liệu…

    …mà xác định một dữ liệu cụ thể có từng nằm trong tập train hay không.

    Ví dụ:

    “Tài liệu sức khỏe của người này có từng dùng để train model không?”

    Nếu trả lời được, đã vi phạm riêng tư.

    Đây là lý do differential privacy ngày càng quan trọng.
    5. Model Stealing (Model Extraction)


    Đây là “ăn cắp trí tuệ” của mô hình.

    Kẻ tấn công liên tục query API của model:

    Input → Quan sát Output → Huấn luyện bản sao.

    Kết quả:

    Một mô hình clone gần tương đương original.

    Nguy cơ:
    • Mất IP (Intellectual Property)
    • Trốn chi phí huấn luyện cực lớn
    • Dùng model clone cho mục đích xấu

    Đặc biệt đáng lo với mô hình cung cấp qua API.
    6. AI Trojan / Backdoor Attack


    Còn gọi là trojan model.

    Kẻ tấn công cài “cửa hậu” vào mô hình ngay lúc huấn luyện.

    Bình thường model hoạt động hoàn hảo.

    Nhưng khi xuất hiện trigger bí mật…

    Model hành xử sai.

    Ví dụ:
    • Chỉ khi có sticker nhỏ trên ảnh thì classifier sai.
    • Chỉ một prompt đặc biệt kích hoạt hành vi nguy hiểm ở LLM.

    Giống malware dormant chờ trigger.

    Rất khó phát hiện.
    Đây thực chất là vấn đề CIA của AI


    Ta có thể nhìn qua lăng kính bảo mật cổ điển: Integrity (Toàn vẹn)


    Bị phá bởi:
    • Data poisoning
    • Adversarial examples
    • Backdoor attacks

    Confidentiality (Bảo mật dữ liệu)


    Bị đe dọa bởi:
    • Model inversion
    • Membership inference
    • Model stealing

    Availability (Sẵn sàng)


    Có thể bị ảnh hưởng bởi:
    • Poisoning làm model unusable
    • Adversarial inputs gây disruption

    Phòng vệ như thế nào?

    1. Secure Training Pipeline


    Bảo vệ chuỗi cung ứng dữ liệu:
    • Data provenance
    • Dataset validation
    • Signed datasets
    • Supply chain security cho model artifacts

    2. Adversarial Training


    Huấn luyện model với dữ liệu đối nghịch để tăng robustness.

    Giống “vaccination” cho AI.
    3. Privacy-Preserving Techniques


    Ví dụ:
    • Differential Privacy
    • Federated Learning
    • Homomorphic Encryption

    Đây đang là hướng nghiên cứu rất mạnh.
    4. Runtime Monitoring


    Không chỉ bảo vệ lúc train.

    Cần bảo vệ khi model vận hành:
    • Detect prompt abuse
    • Detect anomaly in inference
    • Monitor model drift
    • Guardrails cho GenAI

    5. Regular Model Updates


    Model cũng giống software:

    Cần patch.

    Cần update.

    Cần lifecycle management.
    Một góc nhìn quan trọng


    Trong bảo mật truyền thống, chúng ta nói:

    Protect the network.

    Trong AI Security, tư duy phải mở rộng:

    Protect the model, the data, the prompts, and the decisions.

    Đây chính là lý do các khái niệm như:
    • AI Red Teaming
    • Model Risk Management (MRM)
    • AI Security Posture Management (AISPM)
    • Secure AI Supply Chain

    đang trở thành chủ đề nóng.
    Kết luận


    AI không chỉ tạo ra khả năng mới…

    Nó cũng tạo ra các kiểu tấn công mới.

    Hiểu các mối đe dọa như:
    • Data Poisoning
    • Adversarial Attack
    • Model Inversion
    • Membership Inference
    • Model Stealing
    • AI Trojans

    …là bước đầu tiên để xây dựng AI an toàn.

    Nếu “data is the new oil”, thì với AI, model chính là tài sản chiến lược cần được bảo vệ.
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X