2026/01/18 agent 结果的评估

使用 Claude Code 等智能体来执行任务，本质上就是在“开发”一个智能体。但大多数时候，它们只是用来处理简单任务，很多情况下还需要自己亲自参与结果验证。它的高阶用法，是端到端交付一个完整结果。要把它设计好，需要技巧。最核心的问题是：如何定义智能体“已经把任务完成了”？进一步，如何评估完成度？ “聪明”的模型可能会 hack 结果，通过抄近路的方式解决问题。如何设定正确的验收方式，才是提升工程效率的核心。

这和人类社会一样：假设你是企业老板，盈利是最终目标，但你不能把这个目标直接下达给下属部门。你需要针对不同部门，设定适合他们的评估方法——这既是技术，也是艺术。