Agent 安全治理：把风险清单落成运行时控制面

核心结论

Agent 安全治理不能停留在 Prompt 过滤或上线前评审。OWASP 2025 Top 10 已把提示注入、敏感信息泄露、供应链风险、过度代理和资源耗尽列为持续风险面；OWASP 2026 年的 agentic security 报告则进一步把“自主系统的治理模型”单独抬成实施主题；NIST AI RMF 与 Playbook 明确要求把可信 AI 约束放进设计、开发、部署、使用和评测全过程。对 AI 全栈架构师来说，这意味着必须把治理做成运行时控制面，而不是散落在文档里的原则。

技术背景

传统 LLM 应用的主要风险集中在输入、输出和数据边界，但 Agent 会额外引入工具执行、长任务状态、跨系统写操作和多步骤决策。风险不再只来自模型回答错，而是来自模型可以调用什么、以什么身份调用、调用后谁来审批、失败后如何追溯。NIST AI RMF 的 Govern、Map、Measure、Manage 四个函数，正好提供了把这些问题拆到组织职责、系统边界、测量方法和处置流程中的骨架；OWASP 则补上了 Agent/LLM 运行时最常见的攻击面清单。

架构影响

第一，Agent Runtime 需要和业务 API、人工审批、密钥签发、审计日志解耦，形成清晰的控制边界。第二，工具能力必须默认最小权限，凭据应按任务或步骤签发，避免把长期高权限密钥暴露给模型决策环。第三，安全策略需要版本化，和 Prompt、模型、工具清单、审批规则一起进入同一条可回放审计记录。第四，评测体系不能只测成功率，还要持续测注入、越权、数据外泄、工具误用和异常恢复。

实现路径

先做动作清单：列出 Agent 允许执行的读、写、发布、删除、外呼和财务类动作，并标注是否需要人工批准。
再做工具分级：把工具分成只读、受限写、高风险执行三层，对应不同的令牌签发、超时、幂等和审批要求。
把治理映射到 RMF：Govern 负责责任人、例外流程和策略版本；Map 负责资产、数据流和外部依赖；Measure 负责红队样例、越权测试和审计覆盖率；Manage 负责阻断、降级、回滚和事后复盘。
把 OWASP 风险转成工程控制：对提示注入建立上下文隔离和工具参数校验，对敏感信息泄露建立输出审查和最小化回传，对过度代理建立步骤上限与人工确认，对资源耗尽建立预算、速率和并发阈值。
把例外留在系统里：任何人工放行、策略豁免和临时提权都必须留下可检索记录，不能只在 IM 或工单里口头批准。

风险边界

OWASP Top 10 和 NIST AI RMF 都不是可以直接替代产品级控制清单的“开箱即用方案”。它们告诉团队该管什么、如何分层、如何衡量，但不会自动替你定义每个业务动作的风险等级。另一个常见误区是只治理模型输出，不治理工具入口和状态恢复；对 Agent 而言，很多事故会发生在工具调用链和长期任务状态，而不是最终文本本身。

验证清单

工具是否存在明确 allowlist，以及每个工具是否有输入校验、超时和幂等约束。
高风险动作是否默认进入人工审批，并记录审批人、原因和策略版本。
任务级短期凭据是否替代了共享长期密钥。
Prompt、模型、工具、策略、审批和结果是否能通过同一条 trace 或审计记录串起来。
是否有固定红队样例覆盖提示注入、越权访问、敏感泄露、资源耗尽和异常恢复。
发生拒答、阻断或人工接管时，系统是否能给出可复盘原因，而不是只返回失败。

采用建议

建议先从只读或可回滚的内部 Agent 开始，把治理能力做成平台公共件，再逐步扩到写操作和外部系统。真正值得优先建设的不是“更聪明的 Agent”，而是让每次调用都能回答四个问题：它能做什么、凭什么能做、出了问题怎么停、事后如何证明当时的控制是有效的。

description	用 OWASP 与 NIST 的一手框架，把 Agent 风险治理落实为权限、审批、审计和验证体系。
tags	agent-security, owasp, nist

CONVEE AI 全栈架构师知识库

探索