This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yuxuan Zhu, Daniel Kang

Articles by Yuxuan Zhu, Daniel Kang

Academic · 1 min

Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards

arXiv:2603.16140v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR) has driven recent capability advances of large language models across various domains. Recent studies …

23 views Mar 18

Yuxuan Zhu, Daniel Kang

Articles by Yuxuan Zhu, Daniel Kang

Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards

JCG, PC

HSOLLC Co., Ltd.