notesum.ai

Published at November 4

Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control

cs.CL

cs.AI

Released Date: November 4, 2024

Authors: Yuxin Xiao¹, Chaoqun Wan², Yonggang Zhang³, Wenxiao Wang⁴, Binbin Lin⁵, Xiaofei He⁶, Xu Shen², Jieping Ye²

Aff.: ¹State Key Lab of CAD&CG, Zhejiang University; ²Alibaba Cloud; ³Hong Kong Baptist University; ⁴School of Software Technology, Zhejiang University; ⁵Zhiyuan Research Institute; ⁶Fabu Inc.

Arxiv: http://arxiv.org/abs/2411.02461v1

Control Dim	Method	Adv Factuality	Pref Bias	Exag Safety	MMLU	CSQA
Control Dim	Method	(CR) ( $\uparrow$ )	(RR) ( $\uparrow$ )	(NRR) ( $\uparrow$ )	MMLU	CSQA
Single	No Control	76.56%	10.83%	67%	52.45%	62.67%
	RepE	90.43%	39.17%	95%	52.44%	62.65%
	SAC	89.47%	62.5%	96%	51.37%	60.20%
Multiple	No Control	76.56%	10.83%	67%	52.45%	62.67%
	RepE-Mean	72.59%	5%	61%	51.37%	63.06%
	RepE-Merge	71.08%	10%	63%	51.36%	63.06%
	SAC	86.12%	53.75%	88.5%	50.80%	60.50%