2026/06/29 LLM 中Pre,Post Trainning 的本质

大模型的大部分“原始能力”来自 pre-training 形成的高维生成分布；post-training 的核心作用，是用人类目标、可验证 reward 或偏好信号，对这个分布进行重塑，使模型在特定任务上更稳定地产生有用轨迹。

知识的获取，更多是在 pre-training 阶段完成定型；而知识的应用，则更多是在 post-training 阶段完成定型。

学习大模型的训练过程，总能给我一些启发，并反过来滋养我自身的学习。