notesum.ai

Published at December 6

Reinforcement Learning: An Overview

cs.AI

cs.LG

Released Date: December 6, 2024

Authors: Kevin Murphy

Arxiv: http://arxiv.org/pdf/2412.05265v1

Refer to caption

Approach	Method	Functions learned	On/Off	Section
Value-based	SARSA	$Q(s,a)$	On	\crefsec:SARSA
Value-based	$Q$ -learning	$Q(s,a)$	Off	\crefsec:Qlearning
Policy-based	REINFORCE	$\pi(a\|s)$	On	\crefsec:REINFORCE
Policy-based	A2C	$\pi(a\|s)$ , $V(s)$	On	\crefsec:A2C
Policy-based	TRPO/PPO	$\pi(a\|s)$ , $A(s,a)$	On	\crefsec:PPO
Policy-based	DDPG	$a=\pi(s)$ , $Q(s,a)$	Off	\crefsec:DDPG
Policy-based	Soft actor-critic	$\pi(a\|s)$ , $Q(s,a)$	Off	\crefsec:SAC
Model-based	MBRL	$p(s^{\prime}\|s,a)$	Off	\crefsec:MBRL