This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Zhouxiang Fang, Jiawei Zhou, Hanjie Chen

Articles by Zhouxiang Fang, Jiawei Zhou, Hanjie Chen

Academic · 1 min

GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning

arXiv:2603.10243v1 Announce Type: new Abstract: Recent studies show that the safety alignment of large language models (LLMs) can be easily compromised even by seemingly non-adversarial …

36 views Mar 12

Zhouxiang Fang, Jiawei Zhou, Hanjie Chen

Articles by Zhouxiang Fang, Jiawei Zhou, Hanjie Chen

GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning

JCG, PC

HSOLLC Co., Ltd.