notesum.ai

Published at November 25

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

cs.CL

cs.AI

Released Date: November 25, 2024

Authors: Zhiheng Xi¹, Dingwen Yang¹, Jixuan Huang¹, Jiafu Tang¹, Guanyu Li¹, Yiwen Ding¹, Wei He¹, Boyang Hong¹, Shihan Do, Wenyu Zhan¹, Xiao Wang¹, Rui Zheng¹, Tao Ji¹, Xiaowei Shi², Yitao Zhai², Rongxiang Weng², Jingang Wang², Xunliang Cai², Tao Gui¹, Zuxuan Wu¹, Qi Zhang¹, Xipeng Qiu¹, Xuanjing Huang¹, Yu-Gang Jiang¹

Aff.: ¹Fudan University; ²Meituan

Arxiv: http://arxiv.org/abs/2411.16579v1

Critique Model	GSM8K			MATH
Critique Model	Acc.	Discrimin.	Helpfulness	Acc.	Discrimin.	Helpfulness
No Critic	$54.81$	-	-	$17.22$	-	-
GPT-3.5-Turbo	$58.38$	$62.9\%$	$13.3\%$	$25.56$	$51.3\%$	$14.3\%$
GPT-4-Turbo	$77.86$	$91.6\%$	$57.5\%$	$36.00$	$87.6\%$	$26.2\%$
GPT-4o	$79.52$	$91.5\%$	$59.7\%$	$39.98$	$85.4\%$	$30.9\%$
Critique Model-8B	$63.31$	$79.4\%$	$31.0\%$	$24.26$	$75.7\%$	$16.2\%$
Critique Model-70B	$76.88$	$92.3\%$	$55.3\%$	$33.94$	$82.3\%$	$23.9\%$