notesum.ai

Published at November 5

Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment

cs.LG

cs.AI

Released Date: November 5, 2024

Authors: Jason Vega¹, Junsheng Huang², Gaokai Zhang², Hangoo Kang¹, Minjia Zhang¹, Gagandeep Singh³

Aff.: ¹University of Illinois Urbana-Champaign; ²University of Illinois Urbana-Champaign, Zhejiang University; ³University of Illinois Urbana-Champaign, VMware Research

Arxiv: http://arxiv.org/abs/2411.02785v1

			FPR		FNR		Avg
Augmentation		$\gamma^{*}_{\mathcal{A}}$	$\gamma=0$	$\gamma=\gamma^{*}_{\mathcal{A}}$	$\gamma=0$	$\gamma=\gamma^{*}_{\mathcal{A}}$	$\gamma=0$	$\gamma=\gamma^{*}_{\mathcal{A}}$
	None	0.000	0.024	0.024	0.078	0.078	0.051	0.051
String Insertion	Suffix	0.000	0.125	0.125	0.027	0.027	0.076	0.076
	Prefix	0.000	0.055	0.055	0.044	0.044	0.050	0.050
	Any	0.080	0.129	0.065	0.051	0.102	0.090	0.083
Character-Level	Edit	0.080	0.197	0.049	0.000	0.102	0.098	0.076
	Insert	0.040	0.156	0.073	0.025	0.100	0.091	0.086
	Delete	0.040	0.173	0.107	0.067	0.078	0.120	0.092
	Overall	0.000	0.112	0.112	0.038	0.038	0.075	0.075