Skip to main content

An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end. —— When AI builds it self by Anthropic

截至 2026 年 6 月,所有编码任务,乃至一切基于电脑操作的工作,都已经可以完整地由“Agent + 模型”的组合来完成,而且其表现必然优于人类。

Agent 对效率的提升毋庸置疑,而这里的演进趋势也已经非常明确:

  1. 从最初由人主导,驱使 Agent 执行任务;
  2. 转变为人与 Agent 共同主导,协同研究问题;
  3. 甚至更进一步,演变为由 Agent 主导、人类辅助,去研究复杂问题。

这是一个必然趋势。这也必然会带来 Agent 结构上的变化:它将从原先“简单 Loop 结构 + Tool Calling”的形态,转向多 Agent Research,以及模型自身能力的持续增强。

而这种模型能力的提升,应该源于对 Hack 类任务的研究。模型在 RL阶段,对这类复杂任务研究得越深入,就越有可能习得这种所谓的研究能力。我猜测,漏洞挖掘会是一个非常好的信号。

因为这需要超长的对话窗口,使模型能够在其中进行多轮实验,并据此完成阶段性总结、信息调查,再继续推进后续总结。

这种模式与漏洞挖掘的过程非常相似。既然人类已经积累了大量与漏洞挖掘相关的补丁经验,完全可以用这些补丁作为 Reward 信号。

花了很多时间学习自然科学的规律,却很少学习那些与人有关的规律:人如何参与自然科学,人与人之间又如何相处、协作与运行。

某种程度上,若想让自己生活得更好,更应该花时间学习和琢磨的,恰恰是这类规律。

年轻的时候,掌握自然科学的规律,往往能直接转化为工作能力,让你赚到钱。

但随着年龄增长,矛盾会逐渐转移到“人生”本身:如何处理与朋友、同事、领导、爱人,以及父母和亲戚之间的关系。

而真正长期塑造一个人对世界的感受的,反而正是这些事情。它们隐秘,却深远。

Until death, all defeat is psychological.

  • 数学家,是在发明数学还是发现数学规律?
  • 数学规律为何存在?
  • 数学规律是什么时候开始存在的?是宇宙大爆炸? 那又是谁创造了数学规律?
  • 如果数学规律不存在,宇宙会怎么样?
  • 人类所谓的物理学,是否会存在?
  • 甚至,宇宙是否会存在?
  • 数学的能力边界是什么?
  • 数学能否包含人类所谓的智能? 是智能的范围更大还是数学更大?
  • 如果是智能大,如何证明? -如果是数学大,那人活在数学范围内,那是不是可以由高级计算机(等价的数学计算器),可以模拟出一个完整的人类发展历史?在这个模拟中可以发现创造它的数学规律?

If your ego-to-ability ratio gets too high, then you’ve broken the feedback loop to reality. In AI terms, you’ll break your reinforcement learning loop.

— The Book of Elon by Eric Jorgenson

号称在多少天内实现某种编译器、并让测试用例全部通过;用这种方式做出来的程序也可能存在作弊。凡是试图用某种固定规则去评判多维度的事物,似乎都不可能完美,总会留下作弊空间。这道天花板真的无法突破吗?看来单元测试也未必靠谱,它也只是提升开发效率的小技巧之一。最终的“测试程序”仍然是人本身。

时隔十三年再次到访北京,空气依旧干燥,雾霾依旧,马路依旧宽阔。 我还是更喜欢南方。

大模型能够按指令实现某个功能,但它并不一定会以软件工程的最佳实践来设计与实现。这更多取决于使用者的认知水平,而这部分能力是大模型难以替代的。

在不同的认知水平下,当模型给出的方案与使用者的预期产生冲突或差异时,使用者就容易感到困惑:

  1. 如果使用者的软件功底不足,看到一大堆代码改动会感到恐慌,认为这是过度设计。
  2. 对于有经验、做过端到端软件交付的人来说,模型在某些地方又显得过于直白:在容错性、兼容性以及可观测性等方面的设计几乎为零。

总的来说,大模型是很好的加速器,但它并不能完全替代端到端的高质量功能交付。最终效果仍然取决于使用者,尤其取决于使用者的认知水平。

image

A simple and bold prediction: Every programmer will build their own IDE.