2026/06/24 SFT vs RL

SFT 学到的更多是一种招式、一套套路，或一种固定模式下的行为；而这种行为模式通常属于较短链路。

但 RL 能够学习更长链路中的思考逻辑，二者在本质上存在差异。它能够在长链路中，面对不断出现的新局面和不同类型的问题时，学习如何进行综合思考。因此，RL 是建立在 SFT 之上的、更高一层的训练逻辑。

人类在学习过程中，也会试图总结出所谓的运行规律，或者所谓的哲学。它本质上是在长链路及其奖励机制下，尝试提炼出一种高度浓缩的规律。