Skip to main content

26 年版学习方法:

第一步:先建立对整体全貌及难易分布的感知。 第二步:根据需要,深入某个细节,对其进行深化与打磨。 第三步:再结合整体的知识结构,完成整合。

人脑能够基于既有知识进行灵活的动态调整,而模型在训练过程中,本质上只是一组固定参数的不断优化。

以目前的训练方式来看,模型尚不具备将已有知识真正融会贯通的能力,它更像是一种单向推进的过程。一旦参数被修改,后续便很难准确预测这种变化会对先前问题的表现造成怎样的影响。因此,模型只能小心翼翼地朝着稳定、可预期的方向调整参数。

当我们试图用规则对齐一个智能体时,就会遇到一个不可回避的问题,那就是 reward hacking。

现实世界中,有很多依靠规则来限制或规范人的场景。人作为智能体,天然倾向于利用规则;在这种情况下,reward hacking 的出现几乎是必然的。

对于大模型也是如此。当我们使用 RL(强化学习)时,很多情况下也是以规则的方式来约束它们。显然,这时就会像人类社会一样,出现 reward hacking,而这是一种自然结果。

这属于方法论层面的问题,而非技术实现层面的问题。

“But I have learned that building something significant requires engaging with the world as it is, not as you wish it to be.”

—— Freedom of Money, Zhao ChangPeng

如果数据分布足够丰富、模型容量足够强、优化足够到位,并且训练分布和目标任务分布足够接近,那么 next-token prediction 这个看似局部的目标,可能逼出相当强的知识建模与推理能力;但它并不自动保证最终任务正确性。

—— GPT 5.4 high 关于 “预测即智能” 的解释

在 AI 时代,衡量一个工程师水平,以及他是否真的在干活,标准不该再是代码输出量,而应转向 token 使用量,尤其是累计 token 使用量。

我越来越觉得,财富最核心的构成其实是知识,而不是资本。

真正创造财富的方式,是先创造新的知识,再把这些知识落实到产品里,让它能够被不断复制、持续分发。Elon 和那些真正的创业者,本质上就是推动财富被创造、被扩散的发动机。

一个人的精力,最好还是花在那些志同道合、带着使命感、几乎不可阻挡地想把事情做漂亮的人身上。

Elon Musk 怀有一种宏大的理想。类似 “解放全人类,解放被奴役的人们” 般的理想。

但在他这里,这套理想的版本是:他想用技术(technology)——他用的词正是 technology,而不是 science——为人类创造福祉。

—— The Book of Elon

“Given that, really really, really liking what you do is a big advantage.

——The Book of Elon

如果你真的热爱一件事,你对它的要求往往会非常高。

这种要求几乎是一种执拗,甚至带点偏执;也正因如此,你做出来的产品通常会非常出色。这就是你能与竞争对手拉开差距的最核心原因。

因为你投入的时间和精力,会比他们更多。如果你确信一件东西对你有用,而且它确实有用,那么在地球上,肯定也会有一群人和你想法一致。

The measure of success in my life is: “How many useful things can I get done?”

—The Book of Elon