notesum.ai

Published at November 27

Prediction with Action: Visual Policy Learning via Joint Denoising Process

cs.RO

cs.AI

Released Date: November 27, 2024

Authors: Yanjiang Guo¹, Yucheng Hu¹, Jianke Zhang¹, Yen-Jen Wang², Xiaoyu Chen³, Chaochao Lu⁴, Jianyu Chen³

Aff.: ¹IIIS, Tsinghua University; ²University of California, Berkeley; ³Shanghai Qizhi Institute; ⁴Shanghai AI Lab

Arxiv: http://arxiv.org/abs/2411.18179v1

Easier Tasks

button-

press

button

topdown

drawer-

open

door-

open

faucet-

plate-

slide

reach-

wall

window-

open

window-

door-

lock

Diffusion Policy

0.92

0.16

0.36

0.32

0.76

0.60

0.72

0.60

0.36

0.12

SuSIE

0.96

0.32

0.60

0.68

0.56

0.68

0.92

0.68

0.96

0.32

RT-1

0.88

1.00

0.56

1.00

0.08

0.12

1.00

0.00

RT-2*

1.00

0.84

0.92

0.96

0.88

0.76

1.00

0.96

0.40

GR-1

1.00

0.84

1.00

0.96

0.88

1.00

0.60

PAD (ours)

1.00

0.92

1.00

0.92

0.72

1.00

0.92

1.00

0.88

PAD w/o img

1.00

0.92

1.00

0.88

0.92

0.16

0.92

1.00

0.12

PAD w/o co-train

1.00

0.92

1.00

0.92

0.48

0.92

0.96

0.72