notesum.ai

Published at November 20

LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement

cs.CV

cs.AI

Released Date: November 20, 2024

Authors: Siwen Jiao¹, Yangyi Fang²

Aff.: ¹National University of Singapore, Agency for Science, Technology and Research, Singapore; ²Tsinghua University

Arxiv: http://arxiv.org/abs/2411.12980v1

Dataset	Method	Ref.	BLEU-4↑	METEOR↑	ROUGE-L↑	CIDEr↑
DriveLM Dataset	EM-VLM4AD_Base	CVPR’24	45.4	34.5	72.0	3.20
	EM-VLM4AD_Large	CVPR’24	40.1	34.3	70.7	3.10
	DriveLM-Agent	ECCV’24	53.1	36.2	66.8	2.79
	LaVida Drive (Ours)	-	51.3	38.0	73.9	3.32