notesum.ai

Published at November 13

cs.CL

cs.AI

Released Date: November 13, 2024

Authors: Jiahui Li¹, Tai-wei Chang², Fengda Zhang¹, Kun Kuang¹, Long Chen³

Aff.: ¹Zhejiang University; ²Ant Group; ³HKUST

Method	Win	Tie	Lose
PPO-RLHF	37.5%	24.5%	38.0%
PPO-R3HF	59.5%	20.0%	20.5%
DPO	38.5%	27.0%	34.5%