notesum.ai

Published at November 27

Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents

cs.CV

Released Date: November 27, 2024

Authors: Joongwon Chae¹, Zhenyu Wang¹, Peiwu Qin¹

Aff.: ¹Institute of Biopharmaceutical and Health Engineering, Shenzhen International Graduate School, Tsinghua University, Shenzhen, Guangdong, China

Arxiv: http://arxiv.org/abs/2411.18270v1

Refer to caption

Configuration	IoU	GIoU
Original images+CoT	0.27	0.18
3 $\times$ 3 - black - 0.1	0.33	0.24
5 $\times$ 5 - black - 0.1	0.46	0.41
7 $\times$ 7 - black - 0.1	0.49	0.45
9 $\times$ 9 - black - 0.1	0.53	0.49
20 $\times$ 20 - black - 0.1	0.45	0.40
30 $\times$ 30 - black - 0.1	0.36	0.30
3 $\times$ 3 - black - 0.3	0.43	0.38
5 $\times$ 5 - black - 0.3	0.51	0.47
7 $\times$ 7 - black - 0.3	0.54	0.51
9 $\times$ 9 - black - 0.3	0.56	0.53
20 $\times$ 20 - black - 0.3	0.45	0.41
30 $\times$ 30 - black - 0.3	0.37	0.32
3 $\times$ 3 - black - 0.5	0.38	0.29
5 $\times$ 5 - black - 0.5	0.43	0.38
7 $\times$ 7 - black - 0.5	0.45	0.40
9 $\times$ 9 - black - 0.5	0.48	0.43
20 $\times$ 20 - black - 0.5	0.40	0.31
30 $\times$ 30 - black - 0.5	0.36	0.30
3 $\times$ 3 - black - 0.7	0.39	0.31