This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Dong Shu, Denghui Zhang, Jessica Hullman

Articles by Dong Shu, Denghui Zhang, Jessica Hullman

Academic · 1 min

Learning from the Right Rollouts: Data Attribution for PPO-based LLM Post-Training

arXiv:2604.01597v1 Announce Type: new Abstract: Traditional RL algorithms like Proximal Policy Optimization (PPO) typically train on the entire rollout buffer, operating under the assumption that …

13 views Apr 3

Dong Shu, Denghui Zhang, Jessica Hullman

Articles by Dong Shu, Denghui Zhang, Jessica Hullman

Learning from the Right Rollouts: Data Attribution for PPO-based LLM Post-Training

JCG, PC

HSOLLC Co., Ltd.