notesum.ai

Published at November 4

Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention

cs.CL

cs.AI

cs.LG

Released Date: November 4, 2024

Authors: Xingtai Lv¹, Ning Ding¹, Kaiyan Zhang¹, Ermo Hua¹, Ganqu Cui², Bowen Zhou¹

Aff.: ¹Department of Electronic Engineering, Tsinghua University; ²Shanghai AI Laboratory

Arxiv: http://arxiv.org/abs/2411.02063v1

Refer to caption

	Params	Time pre Step	GPU memory
Transformer	135M	153.4ms	2302MiB
LPA	125M	150.6ms	2276MiB
Transformer	369M	351.0ms	4648MiB
LPA	319M	322.9ms	4464MiB
Transformer	3.23B	6.923s	71.94GiB
LPA	2.43B	6.066s	70.26GiB