2026/06/29 LLM 中Pre,Post Trainning 的本质
大模型的大部分“原始能力”来自 pre-training 形成的高维生成分布;post-training 的核心作用,是用人类目标、可验证 reward 或偏好信号,对这个分布进行重塑,使模型在特定任务上更稳定地产生有用轨迹。
知识的获取,更多是在 pre-training 阶段完成定型;而知识的应用,则更多是在 post-training 阶段完成定型。
学习大模型的训练过程,总能给我一些启发,并反过来滋养我自身的学习。