Skip to main content

2026/03/06 训练信号的泛化性

针对数学解题步骤设计的 Reward Model,能否具备足够的泛化能力,让它在其他领域的问题中也有很好的表现?

如果能的话,是因为模型从奖励信号中学到的是更抽象的东西。

最容易迁移的,并不是“会解二元一次方程组”,而是这些更抽象的能力:

  • 是否能显式分解问题;
  • 是否会检查中间步骤;
  • 是否能指出隐含假设;
  • 是否能避免跳步;
  • 是否能做局部纠错;
  • 是否具备较稳定的长链条信用分配能力。

通过数学这类任务,模型可以学到更底层的抽象能力。如上所述,这也是数学上的 Reward Model 能够泛化到其他领域的一个关键特性。

这里的核心概念就是“泛化”:你需要设计一种奖励信号,使其具备足够强的泛化能力——这才是最关键的,也就是信号本身要足够“能迁移”。

我觉得从这个角度来看,一个好的模型设计,和一个人培养良好的思维能力,本质上是一样的。

你要设计的信号要足够有泛化性,才能在各行各业、各个领域里都派上用场。我以前把这种道理叫作“零阶道理”。

举个例子:

  1. 对自身想法的批判性反思
  2. 好奇心

这些都属于“零阶道理”,它们作为信号的泛化力特别强。