notesum.ai

Published at November 25

Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation

Released Date: November 25, 2024

Authors: Muhammad Burhan Hafez¹, Kerim Erekmen²

Aff.: ¹School of Electronics and Computer Science, University of Southampton, Southampton, UK; ²Department of Informatics, University of Hamburg, Hamburg, Germany

Arxiv: http://arxiv.org/abs/2411.16532v1

	Task 1	Task 2	Task 3	Task 4	Task 5
First Visit
Progress & Compress (Active-Col)	-4.25	327.41	732.12	1029.89	2468.09
TAPD (Active-Col)	14.86	439.62	1441.82	2479.65	2605.39
Online EWC	12.14	248.85	528.377	209.62	505.30
Progressive Nets	16.94	437.3	646.17	910.16	1279.05
Second Visit
Progress & Compress (Active-Col)	14.56 $\uparrow$	335.97 $\uparrow$	877.66 $\uparrow$	963.57 $\downarrow$	2529.31 $\uparrow$
TAPD (Active-Col)	18.51 $\uparrow$	472.91 $\uparrow$	1537.52 $\uparrow$	2699.95 $\uparrow$	2580.15 $\downarrow$
Online EWC	-14.71 $\downarrow$	275.79 $\uparrow$	606.64 $\uparrow$	460.08 $\uparrow$	433.57 $\downarrow$
Progressive Nets	-3.4 $\downarrow$	618.7 $\uparrow$	697.6 $\uparrow$	612.37 $\downarrow$	1455.93 $\uparrow$
Third Visit
Progress & Compress (Active-Col)	15.04 $\uparrow$	387.19 $\uparrow$	892.40 $\uparrow$	1034.01 $\uparrow$	2501.98 $\downarrow$
TAPD (Active-Col)	19.94 $\uparrow$	483.87 $\uparrow$	1550.30 $\uparrow$	2383.18 $\downarrow$	2506.41 $\downarrow$
Online EWC	-17.19 $\downarrow$	326.31 $\uparrow$	641.08 $\uparrow$	592.97 $\uparrow$	390.29 $\downarrow$
Progressive Nets	20.33 $\uparrow$	457.5 $\downarrow$	864.68 $\uparrow$	1084.24 $\uparrow$	2312.06 $\uparrow$