This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yifu Ding, Xinhao Zhang, Jinyang Guo

Articles by Yifu Ding, Xinhao Zhang, Jinyang Guo

Academic · 1 min

Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference

arXiv:2604.03950v1 Announce Type: new Abstract: Transformer-based large language models (LLMs) have demonstrated remarkable performance across a wide range of real-world tasks, but their inference cost …

27 views Apr 7

Yifu Ding, Xinhao Zhang, Jinyang Guo

Articles by Yifu Ding, Xinhao Zhang, Jinyang Guo

Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference

JCG, PC

HSOLLC Co., Ltd.