This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yu Li, Tian Lan, Zhengling Qi

Articles by Yu Li, Tian Lan, Zhengling Qi

Academic · 1 min

When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

arXiv:2603.13134v1 Announce Type: new Abstract: Group Relative Policy Optimization (GRPO) has emerged as an effective method for training reasoning models. While it computes advantages based …

10 views Mar 17

Yu Li, Tian Lan, Zhengling Qi

Articles by Yu Li, Tian Lan, Zhengling Qi

When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

JCG, PC

HSOLLC Co., Ltd.