notesum.ai

Published at November 9

A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks

cs.AI

Released Date: November 9, 2024

Authors: Chia Xin Liang¹, Pu Tian², Caitlyn Heqi Yin³, Yao Yua⁴, Wei An-Hou⁵, Li Ming⁶, Tianyang Wang⁷, Ziqian Bi⁸, Ming Liu⁸

Aff.: ¹JTB Technology Corp.; ²Stockton University; ³University of Wisconsin-Madison; ⁴AppCubic USA; ⁵Nomad Sustaintech LTD; ⁶Georgia Institute of Technology; ⁷University of Liverpool; ⁸Purdue University

Arxiv: http://arxiv.org/abs/2411.06284v1