2026/06/15 human value

An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end. —— When AI builds it self by Anthropic

截至 2026 年 6 月，所有编码任务，乃至一切基于电脑操作的工作，都已经可以完整地由“Agent + 模型”的组合来完成，而且其表现必然优于人类。

Agent 对效率的提升毋庸置疑，而这里的演进趋势也已经非常明确：

从最初由人主导，驱使 Agent 执行任务；
转变为人与 Agent 共同主导，协同研究问题；
甚至更进一步，演变为由 Agent 主导、人类辅助，去研究复杂问题。

这是一个必然趋势。这也必然会带来 Agent 结构上的变化：它将从原先“简单 Loop 结构 + Tool Calling”的形态，转向多 Agent Research，以及模型自身能力的持续增强。

而这种模型能力的提升，应该源于对 Hack 类任务的研究。模型在 RL阶段，对这类复杂任务研究得越深入，就越有可能习得这种所谓的研究能力。我猜测，漏洞挖掘会是一个非常好的信号。

因为这需要超长的对话窗口，使模型能够在其中进行多轮实验，并据此完成阶段性总结、信息调查，再继续推进后续总结。

这种模式与漏洞挖掘的过程非常相似。既然人类已经积累了大量与漏洞挖掘相关的补丁经验，完全可以用这些补丁作为 Reward 信号。