This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Rui Wu, Ruixiang Tang

Articles by Rui Wu, Ruixiang Tang

Academic · 1 min

When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals

arXiv:2604.01476v1 Announce Type: new Abstract: Reinforcement learning for LLMs is vulnerable to reward hacking, where models exploit shortcuts to maximize reward without solving the intended …

3 views Apr 3

Rui Wu, Ruixiang Tang

Articles by Rui Wu, Ruixiang Tang

When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals

JCG, PC

HSOLLC Co., Ltd.