2026/03/06 训练信号的泛化性
针对数学解题步骤设计的 Reward Model,能否具备足够的泛化能力,让它在其他领域的问题中也有很好的表现?
如果能的话,是因为模型从奖励信号中学到的是更抽象的东西。
最容易迁移的,并不是“会解二元一次方程组”,而是这些更抽象的能力:
- 是否能显式分解问题;
- 是否会检查中间步骤;
- 是否能指出隐含假设;
- 是否能避免跳步;
- 是否能做局部纠错;
- 是否具备较稳定的长链条信用分配能力。
通过数学这类任务,模型可以学到更底层的抽象能力。如上所述,这也是数学上的 Reward Model 能够泛化到其他领域的一个关键特性。
这里的核心概念就是“泛化”:你需要设计一种奖励信号,使其具备足够强的泛化能力——这才是最关键的,也就是信号本身要足够“能迁移”。
我觉得从这个角度来看,一个好的模型设计,和一个人培养良好的思维能力,本质上是一样的。
你要设计的信号要足够有泛化性,才能在各行各业、各个领域里都派上用场。我以前把这种道理叫作“零阶道理”。
举个例子:
- 对自身想法的批判性反思
- 好奇心
这些都属于“零阶道理”,它们作为信号的泛化力特别强。