notesum.ai

Published at November 29

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

cs.CV

cs.CL

cs.LG

Released Date: November 29, 2024

Authors: Shukang Yin¹, Chaoyou Fu², Sirui Zhao¹, Yunhang Shen³, Chunjiang Ge⁴, Yan Yang², Zuwei Long³, Yuhan Dai¹, Tong Xu¹, Xing Sun³, Ran He⁵, Caifeng Shan², Enhong Chen¹

Aff.: ¹USTC; ²NJU; ³Tencent YouTu Lab; ⁴THU; ⁵CAS

Arxiv: http://arxiv.org/pdf/2411.19951v1

Setting	S	M	L	Overall
Zero-shot	61.3	51.8	44.3	52.5
30K sampled data	66.2 (+4.9)	53.3 (+1.5)	47.4 (+3.1)	55.7 (+3.2)
200K full data	66.7 (+0.5)	54.2 (+0.9)	48.1 (+0.7)	56.3 (+0.6)