notesum.ai

Published at December 5

Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy

cs.LG

cs.AI

Released Date: December 5, 2024

Authors: Keru Chen¹, Honghao Wei², Zhigang Deng³, Sen Lin³

Aff.: ¹Xi'an Jiaotong University; ²Washington State University; ³University of Houston

Arxiv: http://arxiv.org/pdf/2412.04426v1

Refer to caption

	VPA	BallCircle		CarRun
	VPA	random	dataset	random	dataset
Q-value	before	-0.2387	-0.3852	-0.1143	-0.5078
Q-value	after	0.5661	0.8278	-0.0125	0.8314
Qc-value	before	-0.2521	0.1725	-0.2431	-0.4327
Qc-value	after	0.3579	0.8252	0.1254	0.4937