只有好设计跟坏设计,没有所谓的工程师设计。
大模型的大部分“原始能力”来自 pre-training 形成的高维生成分布;post-training 的核心作用,是用人类目标、可验证 reward 或偏好信号,对这个分布进行重塑,使模型在特定任务上更稳定地产生有用轨迹。
知识的获取,更多是在 pre-training 阶段完成定型;而知识的应用,则更多是在 post-training 阶段完成定型。
学习大模型的训练过程,总能给我一些启发,并反过来滋养我自身的学习。
SFT 学到的更多是一种招式、一套套路,或一种固定模式下的行为;而这种行为模式通常属于较短链路。
但 RL 能够学习更长链路中的思考逻辑,二者在本质上存在差异。它能够在长链路中,面对不断出现的新局面和不同类型的问题时,学习如何进行综合思考。因此,RL 是建立在 SFT 之上的、更高一层的训练逻辑。
人类在学习过程中,也会试图总结出所谓的运行规律,或者所谓的哲学。它本质上是在长链路及其奖励机制下,尝试提炼出一种高度浓缩的规律。
An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end. —— When AI builds it self by Anthropic
截至 2026 年 6 月,所有编码任务,乃至一切基于电脑操作的工作,都已经可以完整地由“Agent + 模型”的组合来完成,而且其表现必然优于人类。
Agent 对效率的提升毋庸置疑,而这里的演进趋势也已经非常明确:
- 从最初由人主导,驱使 Agent 执行任务;
- 转变为人与 Agent 共同主导,协同研究问题;
- 甚至更进一步,演变为由 Agent 主导、人类辅助,去研究复杂问题。
这是一个必然趋势。这也必然会带来 Agent 结构上的变化:它将从原先“简单 Loop 结构 + Tool Calling”的形态,转向多 Agent Research,以及模型自身能力的持续增强。
而这种模型能力的提升,应该源于对 Hack 类任务的研究。模型在 RL阶段,对这类复杂任务研究得越深入,就越有可能习得这种所谓的研究能力。我猜测,漏洞挖掘会是一个非常好的信号。
因为这需要超长的对话窗口,使模型能够在其中进行多轮实验,并据此完成阶段性总结、信息调查,再继续推进后续总结。
这种模式与漏洞挖掘的过程非常相似。既然人类已经积累了大量与漏洞挖掘相关的补丁经验,完全可以用这些补丁作为 Reward 信号。
花了很多时间学习自然科学的规律,却很少学习那些与人有关的规律:人如何参与自然科学,人与人之间又如何相处、协作与运行。
某种程度上,若想让自己生活得更好,更应该花时间学习和琢磨的,恰恰是这类规律。
年轻的时候,掌握自然科学的规律,往往能直接转化为工作能力,让你赚到钱。
但随着年龄增长,矛盾会逐渐转移到“人生”本身:如何处理与朋友、同事、领导、爱人,以及父母和亲戚之间的关系。
而真正长期塑造一个人对世界的感受的,反而正是这些事情。它们隐秘,却深远。
Until death, all defeat is psychological.
- 数学家,是在发明数学还是发现数学规律?
- 数学规律为何存在?
- 数学规律是什么时候开始存在的?是宇宙大爆炸? 那又是谁创造了数学规律?
- 如果数学规律不存在,宇宙会怎么样?
- 人类所谓的物理学,是否会存在?
- 甚至,宇宙是否会存在?
- 数学的能力边界是什么?
- 数学能否包含人类所谓的智能? 是智能的范围更大还是数学更大?
- 如果是智能大,如何证明? -如果是数学大,那人活在数学范围内,那是不是可以由高级计算机(等价的数学计算器),可以模拟出一个完整的人类发展历史?在这个模拟中可以发现创造它的数学规律?
If your ego-to-ability ratio gets too high, then you’ve broken the feedback loop to reality. In AI terms, you’ll break your reinforcement learning loop.
— The Book of Elon by Eric Jorgenson
号称在多少天内实现某种编译器、并让测试用例全部通过;用这种方式做出来的程序也可能存在作弊。凡是试图用某种固定规则去评判多维度的事物,似乎都不可能完美,总会留下作弊空间。这道天花板真的无法突破吗?看来单元测试也未必靠谱,它也只是提升开发效率的小技巧之一。最终的“测试程序”仍然是人本身。
时隔十三年再次到访北京,空气依旧干燥,雾霾依旧,马路依旧宽阔。 我还是更喜欢南方。