This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

William Hoy, Binxu Wang, Xu Pan

Articles by William Hoy, Binxu Wang, Xu Pan

Academic · 1 min

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training

arXiv:2604.01499v1 Announce Type: new Abstract: Evolution Strategies (ES) have emerged as a scalable gradient-free alternative to reinforcement learning based LLM fine-tuning, but it remains unclear …

4 views Apr 3

William Hoy, Binxu Wang, Xu Pan

Articles by William Hoy, Binxu Wang, Xu Pan

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training

JCG, PC

HSOLLC Co., Ltd.