notesum.ai

Published at November 18

Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search

cs.CL

cs.AI

Released Date: November 18, 2024

Authors: Jinhao Jiang¹, Zhipeng Chen¹, Yingqian Min¹, Jie Chen¹, Xiaoxue Cheng¹, Jiapeng Wang¹, Yiru Tang¹, Haoxiang Sun², Jia Deng¹, Wayne Xin Zhao¹, Zheng Liu³, Dong Yan⁴, Jian Xie⁴, Zhongyuan Wang³, Ji-Rong Wen¹

Aff.: ¹Gaoling School of Artificial Intelligence, Renmin University of China; ²School of Information, Renmin University of China; ³BAAI; ⁴Baichuan AI

Arxiv: http://arxiv.org/abs/2411.11694v1

Method	MATH-OAI		GSM-Hard		OlympiadBench		College Math
	Acc (%)	Gain (%)	Acc (%)	Gain (%)	Acc (%)	Gain (%)	Acc (%)	Gain (%)
baseline	48.2	-	38.4	-	17.9	-	34.1	-
w/ CoT	58.3	+21.0	38.5	+0.3	19.2	+7.3	39.0	+14.7
w/ BoN	69.0	+43.2	38.8	+1.0	30.3	+69.3	43.0	+26.0
w/ T-Search	70.8	+46.9	41.2	+7.3	34.3	+91.6	44.8	+31.4