notesum.ai

Published at November 7

Interpreting the Learned Model in MuZero Planning

cs.AI

cs.LG

Released Date: November 7, 2024

Authors: Hung Guei¹, Yan-Ru Ju¹, Wei-Yu Chen², Ti-Rong Wu¹

Aff.: ¹Institute of Information Science, Academia Sinica, Taipei, Taiwan; ²Institute of Information Science, Academia Sinica, Taipei, Taiwan; Department of Electrical Engineering, National Taiwan University, Taipei, Taiwan

Arxiv: http://arxiv.org/abs/2411.04580v1

\topruleHyperparameter	Board Games	Atari Games
\midruleIteration	300
Training steps	60k
Batch size	512
Unroll steps ( $K$ )	5
# Blocks	3	2
# Simulations	16	18
Decoder scale ( $\lambda_{d}$ )	1	25
Consistency scale ( $\lambda_{c}$ )	0	1
\bottomrule