架构实践
生产级 Agent 上线检查清单
从状态、工具、审批、观测和恢复五个维度检查 Agent 系统。
#先定义任务边界
生产级 Agent 不是可以无限自主运行的聊天机器人。上线前应明确允许执行的任务、最长运行时间、预算上限、可访问的数据以及必须由人工批准的动作。
#五个检查维度
- 状态:任务状态必须可持久化,并能在进程重启后恢复。
- 工具:每个工具都有输入约束、权限范围、超时和幂等策略。
- 审批:转账、删除、发布和外部通信等高风险动作进入人工审批。
- 观测:记录模型调用、工具调用、状态迁移、成本和失败原因。
- 恢复:设置最大步骤数、重试边界、补偿动作和人工接管入口。
#架构决策清单
- Agent 运行时与业务 API 分离,避免长任务占用请求线程。
- 工具权限使用任务级短期凭据,而不是共享长期密钥。
- 状态存储采用显式版本,升级工作流时保留兼容和迁移路径。
- Prompt、模型、工具和策略版本进入同一条审计记录。
- 用真实失败样本建立回归评测,不只验证理想路径。
#上线门槛
当系统可以回答“任务现在处于什么状态、为什么做出这个动作、失败后如何恢复、谁可以批准下一步”时,才具备进入受控生产环境的基础。
证据来源
修订记录
最近修订:2026-06-07。CONVEE 在原始证据或架构判断变化时更新本文。