架构实践

生产级 Agent 上线检查清单

从状态、工具、审批、观测和恢复五个维度检查 Agent 系统。

CONVEE Research · 阅读时间 3 分钟 · 发布于 2026-06-07

#先定义任务边界

生产级 Agent 不是可以无限自主运行的聊天机器人。上线前应明确允许执行的任务、最长运行时间、预算上限、可访问的数据以及必须由人工批准的动作。

#五个检查维度

  1. 状态:任务状态必须可持久化,并能在进程重启后恢复。
  2. 工具:每个工具都有输入约束、权限范围、超时和幂等策略。
  3. 审批:转账、删除、发布和外部通信等高风险动作进入人工审批。
  4. 观测:记录模型调用、工具调用、状态迁移、成本和失败原因。
  5. 恢复:设置最大步骤数、重试边界、补偿动作和人工接管入口。

#架构决策清单

  • Agent 运行时与业务 API 分离,避免长任务占用请求线程。
  • 工具权限使用任务级短期凭据,而不是共享长期密钥。
  • 状态存储采用显式版本,升级工作流时保留兼容和迁移路径。
  • Prompt、模型、工具和策略版本进入同一条审计记录。
  • 用真实失败样本建立回归评测,不只验证理想路径。

#上线门槛

当系统可以回答“任务现在处于什么状态、为什么做出这个动作、失败后如何恢复、谁可以批准下一步”时,才具备进入受控生产环境的基础。

证据来源

修订记录

最近修订:2026-06-07。CONVEE 在原始证据或架构判断变化时更新本文。

相关内容

返回Agent专题