This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Parsa Mirtaheri, Mikhail Belkin

Articles by Parsa Mirtaheri, Mikhail Belkin

Academic · 1 min

Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing

arXiv:2603.17199v1 Announce Type: new Abstract: Large language models (LLMs) can produce chains of thought (CoT) that do not accurately reflect the actual factors driving their …

11 views Mar 19

Parsa Mirtaheri, Mikhail Belkin

Articles by Parsa Mirtaheri, Mikhail Belkin

Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing

JCG, PC

HSOLLC Co., Ltd.