Skip to main content

2026/04/10 next-token prediction

如果数据分布足够丰富、模型容量足够强、优化足够到位,并且训练分布和目标任务分布足够接近,那么 next-token prediction 这个看似局部的目标,可能逼出相当强的知识建模与推理能力;但它并不自动保证最终任务正确性。

—— GPT 5.4 high 关于 “预测即智能” 的解释