notesum.ai

Published at November 21

cs.RO

Released Date: November 21, 2024

Authors: Yafei Ou¹, Mahdi Tavakoli²

Aff.: ¹Graduate Student Member, IEEE; ²Senior Member, IEEE

Common
Hyperparameter	Value
Rollout buffer size	32768
Batch size	2048
Learning rate (linear decay)	3e-4
Entropy regularization $\beta$	1e-2
Clipping parameter $\epsilon$ (linear decay)	0.2
Generalized advantage estimation $\lambda$	0.95
Epochs per update	3
Visual encoder type	simple (2 layers of CNN)
MLP layers	3
MLP hidden units	128
Imitation learning (if applicable)
BC loss strength (linear decay)	0.2
BC steps	1e4
GAIL reward strength	5e-2