This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Articles by Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Academic · 1 min

Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization

arXiv:2603.12596v1 Announce Type: new Abstract: Proximal policy optimization (PPO) approximates the trust region update using multiple epochs of clipped SGD. Each epoch may drift further …

8 views Mar 16

Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Articles by Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization

JCG, PC

HSOLLC Co., Ltd.