An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end.
—— When AI builds it self by Anthropic
截至 2026 年 6 月,所有编码任务,乃至一切基于电脑操作的工作,都已经可以完整地由“Agent + 模型”的组合来完成,而且其表现必然优于人类。
Agent 对效率的提升毋庸置疑,而这里的演进趋势也已经非常明确:
- 从最初由人主导,驱使 Agent 执行任务;
- 转变为人与 Agent 共同主导,协同研究问题;
- 甚至更进一步,演变为由 Agent 主导、人类辅助,去研究复杂问题。
这是一个必然趋势。这也必然会带来 Agent 结构上的变化:它将从原先“简单 Loop 结构 + Tool Calling”的形态,转向多 Agent Research,以及模型自身能力的持续增强。
而这种模型能力的提升,应该源于对 Hack 类任务的研究。模型在 RL阶段,对这类复杂任务研究得越深入,就越有可能习得这种所谓的研究能力。我猜测,漏洞挖掘会是一个非常好的信号。
因为这需要超长的对话窗口,使模型能够在其中进行多轮实验,并据此完成阶段性总结、信息调查,再继续推进后续总结。
这种模式与漏洞挖掘的过程非常相似。既然人类已经积累了大量与漏洞挖掘相关的补丁经验,完全可以用这些补丁作为 Reward 信号。
花了很多时间学习自然科学的规律,却很少学习那些与人有关的规律:人如何参与自然科学,人与人之间又如何相处、协作与运行。
某种程度上,若想让自己生活得更好,更应该花时间学习和琢磨的,恰恰是这类规律。
年轻的时候,掌握自然科学的规律,往往能直接转化为工作能力,让你赚到钱。
但随着年龄增长,矛盾会逐渐转移到“人生”本身:如何处理与朋友、同事、领导、爱人,以及父母和亲戚之间的关系。
而真正长期塑造一个人对世界的感受的,反而正是这些事情。它们隐秘,却深远。
Until death, all defeat is psychological.
If your ego-to-ability ratio gets too high, then you’ve broken the feedback loop to reality.
In AI terms, you’ll break your reinforcement learning loop.
— The Book of Elon by Eric Jorgenson
号称在多少天内实现某种编译器、并让测试用例全部通过;用这种方式做出来的程序也可能存在作弊。凡是试图用某种固定规则去评判多维度的事物,似乎都不可能完美,总会留下作弊空间。这道天花板真的无法突破吗?看来单元测试也未必靠谱,它也只是提升开发效率的小技巧之一。最终的“测试程序”仍然是人本身。
时隔十三年再次到访北京,空气依旧干燥,雾霾依旧,马路依旧宽阔。
我还是更喜欢南方。
大模型能够按指令实现某个功能,但它并不一定会以软件工程的最佳实践来设计与实现。这更多取决于使用者的认知水平,而这部分能力是大模型难以替代的。
在不同的认知水平下,当模型给出的方案与使用者的预期产生冲突或差异时,使用者就容易感到困惑:
- 如果使用者的软件功底不足,看到一大堆代码改动会感到恐慌,认为这是过度设计。
- 对于有经验、做过端到端软件交付的人来说,模型在某些地方又显得过于直白:在容错性、兼容性以及可观测性等方面的设计几乎为零。
总的来说,大模型是很好的加速器,但它并不能完全替代端到端的高质量功能交付。最终效果仍然取决于使用者,尤其取决于使用者的认知水平。
A simple and bold prediction: Every programmer will build their own IDE.