notesum.ai

Published at November 12

Doubly Mild Generalization for Offline Reinforcement Learning

cs.LG

cs.AI

Released Date: November 12, 2024

Authors: Yixiu Mao¹, Qi Wang¹, Yun Qu¹, Yuhang Jiang¹, Xiangyang Ji¹

Aff.: ¹Department of Automation, Tsinghua University

Arxiv: http://arxiv.org/abs/2411.07934v1

Refer to caption

Dataset-v2	$\mathcal{X}$ QL (+DMG)	SQL(+DMG)
halfcheetah-m	47.7 $\rightarrow$ 55.3	48.3 $\rightarrow$ 54.5
hopper-m	71.1 $\rightarrow$ 90.1	75.5 $\rightarrow$ 97.7
walker2d-m	81.5 $\rightarrow$ 88.7	84.2 $\rightarrow$ 89.8
halfcheetah-m-r	44.8 $\rightarrow$ 51.1	44.8 $\rightarrow$ 51.8
hopper-m-r	97.3 $\rightarrow$ 102.5	101.7 $\rightarrow$ 101.8
walker2d-m-r	75.9 $\rightarrow$ 90.0	77.2 $\rightarrow$ 95.2
halfcheetah-m-e	89.8 $\rightarrow$ 92.5	94.0 $\rightarrow$ 93.5
hopper-m-e	107.1 $\rightarrow$ 111.1	111.8 $\rightarrow$ 110.4
walker2d-m-e	110.1 $\rightarrow$ 111.3	110.0 $\rightarrow$ 109.6
total	725.3 $\rightarrow$ 792.7	747.5 $\rightarrow$ 804.2