notesum.ai

Published at November 27

Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models

cs.CV

Released Date: November 27, 2024

Authors: Jingming Liu¹, Yumeng Li¹, Boyuan Xiao¹, Yichang Jian¹, Ziang Qin¹, Tianjia Shao¹, Yao-Xiang Ding¹, Kun Zhou¹

Aff.: ¹State Key Laboratory of CAD&CG, Zhejiang University

Arxiv: http://arxiv.org/abs/2411.18142v1

Refer to caption

Settings		GPT-4o	VCoT	Ours (cursor-only)	GPT-4o Sampling	Ours
Dense Counting	Success Rate	39.8%	15.5%	39.0%/0%	-	85.3%
	Mean Error	0.82	2.90	1.02/intractable	-	0.17
	Variance	1.49	15.57	2.54/intractable	-	0.22
Simple Jigsaw Puzzle	4-Piece Missing	29.5%	9.1%	27.3%	43.2%	68.2%
Simple Jigsaw Puzzle	6-Piece Missing	9.1%	3.3%	24.2%	30.3%	51.5%
Object Placement	Locating	10.9%	10.4%	69.4%^∗	-	69.4%
Object Placement	Placement	3.6%	1.5%	27.8%	17.3%	37.3%