notesum.ai

Published at May 10

VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions

NeurIPS

Released Date: May 10, 2024

Authors: Guangyan Chen¹, Meiling Wang¹, Te Cui¹, Yao Mu², Haoyang Lu¹, Tianxing Zhou¹, Zicai Peng¹, Mengxiao Hu¹, Haizhou Li¹, Li Yuan³, Yi Yang¹, Yufeng Yue¹

Aff.: ¹Beijing Institute of Technology; ²The University of Hong Kong; ³Peking University

Arxiv: https://openreview.net/pdf/e9b1a837e503d1861ece741d0a2b937f77eea435.pdf