This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Suvadeep Hajra, Palash Nandi, Tanmoy Chakraborty

Articles by Suvadeep Hajra, Palash Nandi, Tanmoy Chakraborty

Academic · 1 min

Exposing Long-Tail Safety Failures in Large Language Models through Efficient Diverse Response Sampling

arXiv:2603.14355v1 Announce Type: new Abstract: Safety tuning through supervised fine-tuning and reinforcement learning from human feedback has substantially improved the robustness of large language models …

8 views Mar 17

Suvadeep Hajra, Palash Nandi, Tanmoy Chakraborty

Articles by Suvadeep Hajra, Palash Nandi, Tanmoy Chakraborty

Exposing Long-Tail Safety Failures in Large Language Models through Efficient Diverse Response Sampling

JCG, PC

HSOLLC Co., Ltd.