核心结论
Agent 安全治理不能停留在 Prompt 过滤或上线前评审。OWASP 2025 Top 10 已把提示注入、敏感信息泄露、供应链风险、过度代理和资源耗尽列为持续风险面;OWASP 2026 年的 agentic security 报告则进一步把“自主系统的治理模型”单独抬成实施主题;NIST AI RMF 与 Playbook 明确要求把可信 AI 约束放进设计、开发、部署、使用和评测全过程。对 AI 全栈架构师来说,这意味着必须把治理做成运行时控制面,而不是散落在文档里的原则。
技术背景
传统 LLM 应用的主要风险集中在输入、输出和数据边界,但 Agent 会额外引入工具执行、长任务状态、跨系统写操作和多步骤决策。风险不再只来自模型回答错,而是来自模型可以调用什么、以什么身份调用、调用后谁来审批、失败后如何追溯。NIST AI RMF 的 Govern、Map、Measure、Manage 四个函数,正好提供了把这些问题拆到组织职责、系统边界、测量方法和处置流程中的骨架;OWASP 则补上了 Agent/LLM 运行时最常见的攻击面清单。
架构影响
第一,Agent Runtime 需要和业务 API、人工审批、密钥签发、审计日志解耦,形成清晰的控制边界。第二,工具能力必须默认最小权限,凭据应按任务或步骤签发,避免把长期高权限密钥暴露给模型决策环。第三,安全策略需要版本化,和 Prompt、模型、工具清单、审批规则一起进入同一条可回放审计记录。第四,评测体系不能只测成功率,还要持续测注入、越权、数据外泄、工具误用和异常恢复。
实现路径
- 先做动作清单:列出 Agent 允许执行的读、写、发布、删除、外呼和财务类动作,并标注是否需要人工批准。
- 再做工具分级:把工具分成只读、受限写、高风险执行三层,对应不同的令牌签发、超时、幂等和审批要求。
- 把治理映射到 RMF:
Govern负责责任人、例外流程和策略版本;Map负责资产、数据流和外部依赖;Measure负责红队样例、越权测试和审计覆盖率;Manage负责阻断、降级、回滚和事后复盘。 - 把 OWASP 风险转成工程控制:对提示注入建立上下文隔离和工具参数校验,对敏感信息泄露建立输出审查和最小化回传,对过度代理建立步骤上限与人工确认,对资源耗尽建立预算、速率和并发阈值。
- 把例外留在系统里:任何人工放行、策略豁免和临时提权都必须留下可检索记录,不能只在 IM 或工单里口头批准。
风险边界
OWASP Top 10 和 NIST AI RMF 都不是可以直接替代产品级控制清单的“开箱即用方案”。它们告诉团队该管什么、如何分层、如何衡量,但不会自动替你定义每个业务动作的风险等级。另一个常见误区是只治理模型输出,不治理工具入口和状态恢复;对 Agent 而言,很多事故会发生在工具调用链和长期任务状态,而不是最终文本本身。
验证清单
- 工具是否存在明确 allowlist,以及每个工具是否有输入校验、超时和幂等约束。
- 高风险动作是否默认进入人工审批,并记录审批人、原因和策略版本。
- 任务级短期凭据是否替代了共享长期密钥。
- Prompt、模型、工具、策略、审批和结果是否能通过同一条 trace 或审计记录串起来。
- 是否有固定红队样例覆盖提示注入、越权访问、敏感泄露、资源耗尽和异常恢复。
- 发生拒答、阻断或人工接管时,系统是否能给出可复盘原因,而不是只返回失败。
采用建议
建议先从只读或可回滚的内部 Agent 开始,把治理能力做成平台公共件,再逐步扩到写操作和外部系统。真正值得优先建设的不是“更聪明的 Agent”,而是让每次调用都能回答四个问题:它能做什么、凭什么能做、出了问题怎么停、事后如何证明当时的控制是有效的。