notesum.ai

Published at October 22

Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models

cs.CL

cs.AI

Released Date: October 22, 2024

Authors: Muhan Lin¹, Shuyang Shi¹, Yue Guo¹, Behdad Chalaki², Vaishnav Tadiparthi², Ehsan Moradi Pari², Simon Stepputtis¹, Joseph Campbell¹, Katia Sycara¹

Aff.: ¹Carnegie Mellon University; ²Honda Research Institute USA

Arxiv: https://arxiv.org/abs/2410.17389v1

Env.	Mthd.	GT	Llama-3 8B	Mixtral	Llama-3 70B	GPT-4
No Lock	Rank	1.0	0.69	0.76	0.93	1.0
No Lock	Score	1.0	0.77	0.89	0.98	1.0
Lock	Rank	1.0	0.54	0.65	0.89	0.98
Lock	Score	1.0	0.55	0.74	0.97	0.98
Multi Lock	Rank	1.0	0.58	0.60	0.90	0.99
Multi Lock	Score	1.0	0.66	0.66	0.96	0.99