2026/03/06 训练信号的泛化性

针对数学解题步骤设计的 Reward Model，能否具备足够的泛化能力，让它在其他领域的问题中也有很好的表现？

如果能的话，是因为模型从奖励信号中学到的是更抽象的东西。

最容易迁移的，并不是“会解二元一次方程组”，而是这些更抽象的能力：

通过数学这类任务，模型可以学到更底层的抽象能力。如上所述，这也是数学上的 Reward Model 能够泛化到其他领域的一个关键特性。

这里的核心概念就是“泛化”：你需要设计一种奖励信号，使其具备足够强的泛化能力——这才是最关键的，也就是信号本身要足够“能迁移”。

我觉得从这个角度来看，一个好的模型设计，和一个人培养良好的思维能力，本质上是一样的。

你要设计的信号要足够有泛化性，才能在各行各业、各个领域里都派上用场。我以前把这种道理叫作“零阶道理”。

举个例子：

这些都属于“零阶道理”，它们作为信号的泛化力特别强。