2026/04/22 reward hacking.
当我们试图用规则对齐一个智能体时,就会遇到一个不可回避的问题,那就是 reward hacking。
现实世界中,有很多依靠规则来限制或规范人的场景。人作为智能体,天然倾向于利用规则;在这种情况下,reward hacking 的出现几乎是必然的。
对于大模型也是如此。当我们使用 RL(强化学习)时,很多情况下也是以规则的方式来约束它们。显然,这时就会像人类社会一样,出现 reward hacking,而这是一种自然结果。
这属于方法论层面的问题,而非技术实现层面的问题。