notesum.ai

Published at May 13

Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters

NeurIPS

Released Date: May 13, 2024

Authors: Haibo Jin¹, Andy Zhou², Joe D. Menke¹, Haohan Wang¹

Aff.: ¹School of Information Sciences University of Illinois at Urbana-Champaign, Champaign, IL 61820; ²Computer Science Lapis Labs University of Illinois at Urbana-Champaign, Champaign, IL 61820

Arxiv: https://openreview.net/pdf/aecaf57ee9a4cd36e01edfe38d57f5b8a2ba3164.pdf