notesum.ai

Published at December 9

Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models

cs.CV

Released Date: December 9, 2024

Authors: Wei Suo¹, Ji Ma¹, Mengyang Sun¹, Lin Yuanbo Wu², Peng Wang¹, Yanning Zhang¹

Aff.: ¹Northwestern Polytechnical University; ²Swansea University

Arxiv: http://arxiv.org/pdf/2412.06458v1

LVLMs Are Retrained (Not Directly Comparable)
\addstackgap[.5]0 Method	TFLOPs ( $\downarrow$ )	Average	AOKVQA	SQA	MME	POPE	MMB	MMB^CN	LLaVA^W	SEED^I
\addstackgap[.5]0 LLaVA-1.5-7B [26]	11.05 (100%)	70.5	77.8	70.8	1467	86.1	65.3	59.4	65.5	66.7
\addstackgap[.5]0 + RoE-LLaVA [44]	8.29 (75.0%)	-	-	68.7	-	-	64.6	-	-	57.8
\addstackgap[.5]0 + TokenPacker [23]	6.12 (55.4%)	-	-	-	-	87.0	65.1	-	-	-
\addstackgap[.5]0 + LLaVolta [7]	5.78 (51.4%)	71.0	77.7^∗	70.5	1472	86.3	65.6	59.9	68.2	66.1
\addstackgap[.5]0 + $M^{3}$ [6]	4.93 (44.6%)	-	-	-	-	85.5	64.8	-	-	58.0
\addstackgap[.5]0 + PruMerge [36]	4.88 (44.2%)	-	-	68.5	1350	76.3	60.9	-	-	-
LVLMs Are Frozen (Comparable Results)
\addstackgap[.5]0 Method	TFLOPs ( $\downarrow$ )	Average	AOKVQA	SQA	MME	POPE	MMB	MMB^CN	LLaVA^W	SEED^I
\addstackgap[.5]0 LLaVA-1.5-7B [26]	11.05 (100%)	70.5	77.8	70.8	1467	86.1	65.3	59.4	65.5	66.7
(T=576,L=32)	11.05 (100%)	70.5	77.8	70.8	1467	86.1	65.3	59.4	65.5	66.7
\hdashline\addstackgap[.5]0 + Random Dropping [7]	5.78 (51.4%)	53.5	72.7^∗	69.3	1142	55.8	39.7	33.3	47.6	52.2
\addstackgap[.5]0 + ShortGPT [30]^∗	8.30 (75.1%)	53.9	74.2	64.6	964	69.7	50.4	37.5	52.9	54.3
\addstackgap[.5]0 + LLaVolta [7] (test)	5.78 (51.4%)	60.8	74.9^∗	69.4	1150	70.1	56.4	46.5	55.6	55.7
\addstackgap[.5]0 + FastV [8]	5.78 (51.4%)	62.5	75.5	69.4	1298	65.6	60.1	53.0	54.8	56.3
\hdashline\addstackgap[.5]0 + Ours (T=272, L=30)	7.31 (66.2%)	70.0 $\!\uparrow\!$ 7.5	78.0 $\!\uparrow\!$ 2.5	70.7 $\!\uparrow\!$ 1.3	1448 $\!\uparrow\!$ 150	85.9 $\!\uparrow\!$ 15.8	64.8 $\!\uparrow\!$ 4.7	56.5 $\!\uparrow\!$ 3.5	65.3 $\!\uparrow\!$ 9.7	66.4 $\!\uparrow\!$ 10.1
\addstackgap[.5]0 + Ours (T=224, L=28)	6.40 (57.9%)	67.9 $\!\uparrow\!$ 5.4	77.7 $\!\uparrow\!$ 2.2	70.4 $\!\uparrow\!$ 1.0	1351 $\!\uparrow\!$ 53	80.6 $\!\uparrow\!$ 10.5	62.6 $\!\uparrow\!$ 2.5	54.5 $\!\uparrow\!$ 1.5	64.8 $\!\uparrow\!$ 9.2	65.2 $\!\uparrow\!$ 8.9
\addstackgap[.5]0 + Ours (T=144, L=28) ${\dagger}$	5.67 (51.3%)	66.4 $\!\uparrow\!$ 3.9	77.7 $\!\uparrow\!$ 2.2	70.0 $\!\uparrow\!$ 0.6	1300 $\!\uparrow\!$ 2	76.1 $\!\uparrow\!$ 6.0	62.2 $\!\uparrow\!$ 2.1	53.8 $\!\uparrow\!$ 0.8	63.8 $\!\uparrow\!$ 8.2	62.7 $\!\uparrow\!$ 6.4
\addstackgap[.5]0 + Ours (T=176, L=24)	5.16 (46.7%)	65.7 $\!\uparrow\!$ 3.2	77.6 $\!\uparrow\!$ 2.1	69.8 $\!\uparrow\!$ 0.4	1292 $\!\downarrow\!$ 6	75.9 $\!\uparrow\!$ 5.8	61.1 $\!\uparrow\!$ 1.0	53.1 $\!\uparrow\!$ 0.1	63.6 $\!\uparrow\!$ 8.0	60.2 $\!\uparrow\!$ 3.9
\addstackgap[.5]0 + Ours (T=128, L=24)	4.78 (43.3%)	64.6 $\!\uparrow\!$ 2.1	76.4 $\!\uparrow\!$ 0.9	69.6 $\!\uparrow\!$ 0.2	1286 $\!\downarrow\!$ 12	73.6 $\!\uparrow\!$ 3.5	60.2 $\!\uparrow\!$ 0.1	50.7 $\!\downarrow\!$ 2.3	62.5 $\!\uparrow\!$ 6.9	59.4 $\!\uparrow\!$ 3.1
\addstackgap[.5]0 Qwen-VL-Chat-9B [3]	9.27 (100%)	70.1	75.6	68.2	1487	86.5	60.6	56.7	73.5	65.4
(T=256,L=32)	9.27 (100%)	70.1	75.6	68.2	1487	86.5	60.6	56.7	73.5	65.4
\hdashline\addstackgap[.5]0 + Random Dropping [7]^∗	7.43 (80.1%)	59.3	70.1	64.9	1138	80.2	44.3	37.6	62.5	57.7
\addstackgap[.5]0 + ShortGPT [30]^∗	8.39 (90.5%)	58.8	63.5	52.6	1398	81.1	46.6	39.2	61.3	56.0
\addstackgap[.5]0 + LLaVolta [7]^∗ (test)	7.43 (80.1%)	63.2	71.6	65.3	1336	80.8	51.1	45.8	64.0	59.8
\addstackgap[.5]0 + FastV [8]^∗	7.43 (80.1%)	64.7	72.2	65.9	1405	81.4	53.5	49.1	64.8	60.1
\hdashline\addstackgap[.5]0 + Ours (T=128, L=30)	7.63 (82.3%)	68.5 $\!\uparrow\!$ 3.8	76.1 $\!\uparrow\!$ 3.9	67.0 $\!\uparrow\!$ 1.1	1474 $\!\uparrow\!$ 69	83.3 $\!\uparrow\!$ 1.9	58.9 $\!\uparrow\!$ 5.4	55.6 $\!\uparrow\!$ 6.5	71.2 $\!\uparrow\!$ 6.4	62.3 $\!\uparrow\!$ 2.2
\addstackgap[.5]0 + Ours (T=102, L=30) ${\dagger}$	7.39 (79.7%)	67.6 $\!\uparrow\!$ 2.9	74.7 $\!\uparrow\!$ 2.5	66.8 $\!\uparrow\!$ 0.9	1464 $\!\uparrow\!$ 59	82.5 $\!\uparrow\!$ 1.1	57.3 $\!\uparrow\!$ 3.8	55.1 $\!\uparrow\!$ 6.0	69.3 $\!\uparrow\!$ 4.5	61.7 $\!\uparrow\!$ 1.6
\addstackgap[.5]0 + Ours (T=72, L=28)	6.79 (73.3%)	65.8 $\!\uparrow\!$ 1.1	73.5 $\!\uparrow\!$ 1.3	66.3 $\!\uparrow\!$ 0.4	1425 $\!\uparrow\!$ 20	81.9 $\!\uparrow\!$ 0.5	54.3 $\!\uparrow\!$ 0.8	50.3 $\!\uparrow\!$ 1.2	68.5 $\!\uparrow\!$ 3.7	60.2 $\!\uparrow\!$ 0.1