notesum.ai

Published at December 4

AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?

cs.CV

Released Date: December 4, 2024

Authors: Shouwei Ruan¹, Hanqin Liu, Yao Huang, Xiaoqi Wang, Caixin Kang, Hang Su, Yinpeng Dong, Xingxing Wei

Aff.: ¹Institute of Artificial Intelligence, Beihang University

Arxiv: http://arxiv.org/pdf/2412.03002v1

Refer to caption

Target Models	#Params	ImagNet [17]				Synthesis
Target Models	#Params	Clean	Random	$p^{*}(\boldsymbol{\Theta})$	$\boldsymbol{\Theta}^{*}$	Clean	Random	$p^{*}(\boldsymbol{\Theta})$	$\boldsymbol{\Theta}^{*}$
OpenCLIP ViT-B/16 [24]	149M	98.0	62.6 $({\color[rgb]{0.68,0,0}\downarrow\!35})$	54.0 $({\color[rgb]{0.68,0,0}\downarrow\!44})$	18.0 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!80})}$	98.0	89.9 $({\color[rgb]{0.68,0,0}\downarrow\!8})$	86.0 $({\color[rgb]{0.68,0,0}\downarrow\!12})$	62.3 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!36})}$
OpenCLIP ViT-L/14 [24]	428M	94.4	61.7 $({\color[rgb]{0.68,0,0}\downarrow\!33})$	50.9 $({\color[rgb]{0.68,0,0}\downarrow\!44})$	15.3 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!79})}$	98.4	89.2 $({\color[rgb]{0.68,0,0}\downarrow\!9})$	83.7 $({\color[rgb]{0.68,0,0}\downarrow\!15})$	62.3 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!36})}$
OpenCLIP ViT-G/14 [24]	2.5B	96.4	63.5 $({\color[rgb]{0.68,0,0}\downarrow\!33})$	53.5 $({\color[rgb]{0.68,0,0}\downarrow\!43})$	18.7 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!78})}$	98.4	89.4 $({\color[rgb]{0.68,0,0}\downarrow\!9})$	86.0 $({\color[rgb]{0.68,0,0}\downarrow\!12})$	62.7 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!36})}$
BLIP ViT-B/16 [28]	583M	83.0	56.0 $({\color[rgb]{0.68,0,0}\downarrow\!27})$	51.3 $({\color[rgb]{0.68,0,0}\downarrow\!32})$	17.3 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!66})}$	92.7	80.4 $({\color[rgb]{0.68,0,0}\downarrow\!12})$	78.6 $({\color[rgb]{0.68,0,0}\downarrow\!14})$	54.7 $\boldsymbol{({\color[rgb]{0.68,0,0}\downarrow\!38})}$