notesum.ai

Published at November 7

Vision Language Models are In-Context Value Learners

cs.RO

cs.AI

cs.LG

Released Date: November 7, 2024

Authors: Yecheng Jason Ma¹, Joey Hejna², Ayzaan Wahid², Chuyuan Fu², Dhruv Shah², Jacky Liang², Zhuo Xu², Sean Kirmani², Peng Xu², Danny Driess², Ted Xiao², Jonathan Tompson², Osbert Bastani¹, Dinesh Jayaraman¹, Wenhao Yu², Tingnan Zhang², Dorsa Sadigh³, Fei Xia²

Aff.: ¹University of Pennsylvania; ²Google DeepMind; ³Stanford University

Arxiv: http://arxiv.org/abs/2411.04549v1

Dataset	Avg. VOC
RT-1 [5]	0.74
Dobb-E [54]	0.53
Bridge [62]	0.51
QT-OPT [28]	0.19
DROID [30]	-0.01
RoboNet [12]	-0.85