2026/04/22 reward hacking.

当我们试图用规则对齐一个智能体时，就会遇到一个不可回避的问题，那就是 reward hacking。

现实世界中，有很多依靠规则来限制或规范人的场景。人作为智能体，天然倾向于利用规则；在这种情况下，reward hacking 的出现几乎是必然的。

对于大模型也是如此。当我们使用 RL（强化学习）时，很多情况下也是以规则的方式来约束它们。显然，这时就会像人类社会一样，出现 reward hacking，而这是一种自然结果。

这属于方法论层面的问题，而非技术实现层面的问题。