大模型能够按指令实现某个功能,但它并不一定会以软件工程的最佳实践来设计与实现。这更多取决于使用者的认知水平,而这部分能力是大模型难以替代的。
在不同的认知水平下,当模型给出的方案与使用者的预期产生冲突或差异时,使用者就容易感到困惑:
- 如果使用者的软件功底不足,看到一大堆代码改动会感到恐慌,认为这是过度设计。
- 对于有经验、做过端到端软件交付的人来说,模型在某些地方又显得过于直白:在容错性、兼容性以及可观测性等方面的设计几乎为零。
总的来说,大模型是很好的加速器,但它并不能完全替代端到端的高质量功能交付。最终效果仍然取决于使用者,尤其取决于使用者的认知水平。
A simple and bold prediction: Every programmer will build their own IDE.
26 年版学习方法:
第一步:先建立对整体全貌及难易分布的感知。
第二步:根据需要,深入某个细节,对其进行深化与打磨。
第三步:再结合整体的知识结构,完成整合。
人脑能够基于既有知识进行灵活的动态调整,而模型在训练过程中,本质上只是一组固定参数的不断优化。
以目前的训练方式来看,模型尚不具备将已有知识真正融会贯通的能力,它更像是一种单向推进的过程。一旦参数被修改,后续便很难准确预测这种变化会对先前问题的表现造成怎样的影响。因此,模型只能小心翼翼地朝着稳定、可预期的方向调整参数。
当我们试图用规则对齐一个智能体时,就会遇到一个不可回避的问题,那就是 reward hacking。
现实世界中,有很多依靠规则来限制或规范人的场景。人作为智能体,天然倾向于利用规则;在这种情况下,reward hacking 的出现几乎是必然的。
对于大模型也是如此。当我们使用 RL(强化学习)时,很多情况下也是以规则的方式来约束它们。显然,这时就会像人类社会一样,出现 reward hacking,而这是一种自然结果。
这属于方法论层面的问题,而非技术实现层面的问题。
“But I have learned that building something significant requires engaging with the world as it is, not as you wish it to be.”
—— Freedom of Money, Zhao ChangPeng
如果数据分布足够丰富、模型容量足够强、优化足够到位,并且训练分布和目标任务分布足够接近,那么 next-token prediction 这个看似局部的目标,可能逼出相当强的知识建模与推理能力;但它并不自动保证最终任务正确性。
—— GPT 5.4 high 关于 “预测即智能” 的解释
在 AI 时代,衡量一个工程师水平,以及他是否真的在干活,标准不该再是代码输出量,而应转向 token 使用量,尤其是累计 token 使用量。
我越来越觉得,财富最核心的构成其实是知识,而不是资本。
真正创造财富的方式,是先创造新的知识,再把这些知识落实到产品里,让它能够被不断复制、持续分发。Elon 和那些真正的创业者,本质上就是推动财富被创造、被扩散的发动机。
一个人的精力,最好还是花在那些志同道合、带着使命感、几乎不可阻挡地想把事情做漂亮的人身上。