notesum.ai

Published at November 19

When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations

cs.CR

cs.AI

Released Date: November 19, 2024

Authors: Huaizhi Ge¹, Yiming Li², Qifan Wang³, Yongfeng Zhang⁴, Ruixiang Tang⁴

Aff.: ¹Columbia University; ²Nanyang Technological University; ³Meta AI; ⁴Rutgers University

Arxiv: http://arxiv.org/abs/2411.12701v1

Refer to caption

Exp	Jaccard Similarity	STS Similarity
1	1.54e-08	8.92e-14
2	0.0270	3.07e-4
3	0.0210	0.0476
4	5.87e-15	1.95e-13
5	1.11e-10	5.35e-12
6	0.0347	0.951