Skip to main content

2026/06/24 SFT vs RL

SFT 学到的更多是一种招式、一套套路,或一种固定模式下的行为;而这种行为模式通常属于较短链路。

但 RL 能够学习更长链路中的思考逻辑,二者在本质上存在差异。它能够在长链路中,面对不断出现的新局面和不同类型的问题时,学习如何进行综合思考。因此,RL 是建立在 SFT 之上的、更高一层的训练逻辑。

人类在学习过程中,也会试图总结出所谓的运行规律,或者所谓的哲学。它本质上是在长链路及其奖励机制下,尝试提炼出一种高度浓缩的规律。