This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

Articles by Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

Academic · 1 min

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

arXiv:2603.16929v1 Announce Type: new Abstract: Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing …

17 views Mar 19

Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

Articles by Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

JCG, PC

HSOLLC Co., Ltd.