This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Zhijie Wang

Articles by Zhijie Wang

Academic · 1 min

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

arXiv:2603.14041v1 Announce Type: new Abstract: The enhancement of reasoning capabilities in large language models (LLMs) has garnered significant attention, with supervised fine-tuning (SFT) and reinforcement …

Zhijie Wang

19 views Mar 17

Zhijie Wang

Articles by Zhijie Wang

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

JCG, PC

HSOLLC Co., Ltd.