This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Articles by Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Academic · 1 min

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

arXiv:2603.20562v1 Announce Type: new Abstract: Large language models (LLMs) are now widely used as judges, yet their decisions can change under presentation choices that should …

6 views Mar 24

Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Articles by Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

JCG, PC

HSOLLC Co., Ltd.