Skip to main content

2026/01/18 agent 结果的评估

使用 Claude Code 等智能体来执行任务,本质上就是在“开发”一个智能体。但大多数时候,它们只是用来处理简单任务,很多情况下还需要自己亲自参与结果验证。 它的高阶用法,是端到端交付一个完整结果。 要把它设计好,需要技巧。 最核心的问题是:如何定义智能体“已经把任务完成了”?进一步,如何评估完成度? “聪明”的模型可能会 hack 结果,通过抄近路的方式解决问题。 如何设定正确的验收方式,才是提升工程效率的核心。

这和人类社会一样:假设你是企业老板,盈利是最终目标,但你不能把这个目标直接下达给下属部门。你需要针对不同部门,设定适合他们的评估方法——这既是技术,也是艺术。