架构实践

生产级 Agent 上线检查清单

从状态、工具、审批、观测和恢复五个维度检查 Agent 系统。

CONVEE Research · 阅读时间 3 分钟 · 发布于 2026-06-07

#先定义任务边界

生产级 Agent 不是可以无限自主运行的聊天机器人。上线前应明确允许执行的任务、最长运行时间、预算上限、可访问的数据以及必须由人工批准的动作。

#五个检查维度

状态：任务状态必须可持久化，并能在进程重启后恢复。
工具：每个工具都有输入约束、权限范围、超时和幂等策略。
审批：转账、删除、发布和外部通信等高风险动作进入人工审批。
观测：记录模型调用、工具调用、状态迁移、成本和失败原因。
恢复：设置最大步骤数、重试边界、补偿动作和人工接管入口。

#架构决策清单

Agent 运行时与业务 API 分离，避免长任务占用请求线程。
工具权限使用任务级短期凭据，而不是共享长期密钥。
状态存储采用显式版本，升级工作流时保留兼容和迁移路径。
Prompt、模型、工具和策略版本进入同一条审计记录。
用真实失败样本建立回归评测，不只验证理想路径。

#上线门槛

当系统可以回答“任务现在处于什么状态、为什么做出这个动作、失败后如何恢复、谁可以批准下一步”时，才具备进入受控生产环境的基础。

证据来源

修订记录

最近修订：2026-06-07。CONVEE 在原始证据或架构判断变化时更新本文。

相关内容

返回Agent专题