notesum.ai

Published at November 14

Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search

cs.LG

cs.AI

stat.ML

Released Date: November 14, 2024

Authors: Amna Najib¹, Stefan Depeweg¹, Phillip Swazinna¹

Aff.: ¹Siemens AG

Arxiv: http://arxiv.org/abs/2411.09722v1

Refer to caption

Cost (-Reward) over Iterations
Policy	$\alpha_{d}=0.0$	$\alpha_{d}=0.15$	Initial data
Iteration0	x	x	$216.5$
Iteration1	$203.5\pm 2.6$	$204.3\pm 2.4$	x
Iteration2	$194.0\pm 4.5$	$190.6\pm 1.0$	x
Iteration3	$189.2\pm 2.0$	$186.5\pm 1.5$	x
Iteration4	$188.9\pm 4.8$	$182.7\pm 1.2$	x