Skip to main content

SFT 学到的更多是一种招式、一套套路,或一种固定模式下的行为;而这种行为模式通常属于较短链路。

但 RL 能够学习更长链路中的思考逻辑,二者在本质上存在差异。它能够在长链路中,面对不断出现的新局面和不同类型的问题时,学习如何进行综合思考。因此,RL 是建立在 SFT 之上的、更高一层的训练逻辑。

人类在学习过程中,也会试图总结出所谓的运行规律,或者所谓的哲学。它本质上是在长链路及其奖励机制下,尝试提炼出一种高度浓缩的规律。

An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end. —— When AI builds it self by Anthropic

截至 2026 年 6 月,所有编码任务,乃至一切基于电脑操作的工作,都已经可以完整地由“Agent + 模型”的组合来完成,而且其表现必然优于人类。

Agent 对效率的提升毋庸置疑,而这里的演进趋势也已经非常明确:

  1. 从最初由人主导,驱使 Agent 执行任务;
  2. 转变为人与 Agent 共同主导,协同研究问题;
  3. 甚至更进一步,演变为由 Agent 主导、人类辅助,去研究复杂问题。

这是一个必然趋势。这也必然会带来 Agent 结构上的变化:它将从原先“简单 Loop 结构 + Tool Calling”的形态,转向多 Agent Research,以及模型自身能力的持续增强。

而这种模型能力的提升,应该源于对 Hack 类任务的研究。模型在 RL阶段,对这类复杂任务研究得越深入,就越有可能习得这种所谓的研究能力。我猜测,漏洞挖掘会是一个非常好的信号。

因为这需要超长的对话窗口,使模型能够在其中进行多轮实验,并据此完成阶段性总结、信息调查,再继续推进后续总结。

这种模式与漏洞挖掘的过程非常相似。既然人类已经积累了大量与漏洞挖掘相关的补丁经验,完全可以用这些补丁作为 Reward 信号。

花了很多时间学习自然科学的规律,却很少学习那些与人有关的规律:人如何参与自然科学,人与人之间又如何相处、协作与运行。

某种程度上,若想让自己生活得更好,更应该花时间学习和琢磨的,恰恰是这类规律。

年轻的时候,掌握自然科学的规律,往往能直接转化为工作能力,让你赚到钱。

但随着年龄增长,矛盾会逐渐转移到“人生”本身:如何处理与朋友、同事、领导、爱人,以及父母和亲戚之间的关系。

而真正长期塑造一个人对世界的感受的,反而正是这些事情。它们隐秘,却深远。

Until death, all defeat is psychological.

  • 数学家,是在发明数学还是发现数学规律?
  • 数学规律为何存在?
  • 数学规律是什么时候开始存在的?是宇宙大爆炸? 那又是谁创造了数学规律?
  • 如果数学规律不存在,宇宙会怎么样?
  • 人类所谓的物理学,是否会存在?
  • 甚至,宇宙是否会存在?
  • 数学的能力边界是什么?
  • 数学能否包含人类所谓的智能? 是智能的范围更大还是数学更大?
  • 如果是智能大,如何证明? -如果是数学大,那人活在数学范围内,那是不是可以由高级计算机(等价的数学计算器),可以模拟出一个完整的人类发展历史?在这个模拟中可以发现创造它的数学规律?

If your ego-to-ability ratio gets too high, then you’ve broken the feedback loop to reality. In AI terms, you’ll break your reinforcement learning loop.

— The Book of Elon by Eric Jorgenson

号称在多少天内实现某种编译器、并让测试用例全部通过;用这种方式做出来的程序也可能存在作弊。凡是试图用某种固定规则去评判多维度的事物,似乎都不可能完美,总会留下作弊空间。这道天花板真的无法突破吗?看来单元测试也未必靠谱,它也只是提升开发效率的小技巧之一。最终的“测试程序”仍然是人本身。

时隔十三年再次到访北京,空气依旧干燥,雾霾依旧,马路依旧宽阔。 我还是更喜欢南方。

大模型能够按指令实现某个功能,但它并不一定会以软件工程的最佳实践来设计与实现。这更多取决于使用者的认知水平,而这部分能力是大模型难以替代的。

在不同的认知水平下,当模型给出的方案与使用者的预期产生冲突或差异时,使用者就容易感到困惑:

  1. 如果使用者的软件功底不足,看到一大堆代码改动会感到恐慌,认为这是过度设计。
  2. 对于有经验、做过端到端软件交付的人来说,模型在某些地方又显得过于直白:在容错性、兼容性以及可观测性等方面的设计几乎为零。

总的来说,大模型是很好的加速器,但它并不能完全替代端到端的高质量功能交付。最终效果仍然取决于使用者,尤其取决于使用者的认知水平。

image