notesum.ai

Published at December 4

DIVE: Taming DINO for Subject-Driven Video Editing

cs.CV

cs.AI

Released Date: December 4, 2024

Authors: Yi Huang¹, Wei Xiong², He Zhang², Chaoqi Chen³, Jianzhuang Liu¹, Mingfu Yan⁴, Shifeng Chen⁵

Aff.: ¹Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences; ²Adobe Research; ³Shenzhen University; ⁴University of Chinese Academy of Sciences; ⁵Shenzhen University of Advanced Technology

Arxiv: http://arxiv.org/pdf/2412.03347v1

Methods	Text Alignment $(\uparrow)$	Image Alignment $(\uparrow)$	Temporal Consistency $(\uparrow)$	User Study $(\uparrow)$
	Reference Image Guided Subject Editing
TokenFlow [12]	27.76	60.39	90.18	5.75 $\%$
AnyV2V [28]	28.13	78.26	90.52	16.67 $\%$
FLATTEN [6]	28.79	69.32	92.09	5.25 $\%$
RAVE [25]	28.26	66.25	91.71	7.25 $\%$
DIVE (Ours)	29.43	84.27	92.33	65.08%
	Text Guided Subject Editing
TokenFlow [12]	31.87	$\backslash$	94.21	17.14 $\%$
AnyV2V [28]	31.05	$\backslash$	93.73	5.63 $\%$
FLATTEN [6]	31.55	$\backslash$	95.35	14.74 $\%$
RAVE [25]	31.57	$\backslash$	95.12	10.22 $\%$
DIVE (Ours)	32.29	$\backslash$	95.89	52.27%