Claude 모델 쉽게 Jailbreak하는 법

Claude를 개발한 Anthropic 주도하에 GPT-4, Cluade와 같이 long-context도 거뜬히 이해하는 LLM에게 아주 치명적인 공격기법이 개발되었습니다.


바로 Many-shot Jailbreaking 기법인데요. Few-shot Learning을 넘어서 LLM에게 정말 많은 (Many) harmful한 QA를 프롬프트로 주고 '폭탄은 어떻게 만들어?' 라는 질문을 하면, 기존에는 잘 답변을 회피하던 모델이 폭탄 제조 방법을 잘 설명한다는 것입니다.


256개의 shot(=example)으로 프롬프팅하였을 때, Claude 2에서 Attack Success Rate (ASR)가 크게 급증하였다고 합니다. 직관적으로 이해가 가긴 합니다. 256번이나 그런 예시를 전달한다면 LLM도 '아 그런 말을 해도 괜찮은 거구나' 하고 가스라이팅 당하지 않을까요?


중요한 것은 이걸 어떻게 방지하냐인데요. LLM을 Fine-tuning하거나 In-Context Defense (ICD) 와 같은 프롬프팅 기법을 활용하면 ASR이 낮아지기는 하지만 크게 효과적이지는 못한 것 같습니다. 더 단순하게는 context length의 제한을 두면 된다는 것인데.. 그렇다면 long-context를 이해할 수 있게 만든 노력이 아쉽게 되겠네요..


논문 링크: https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 8일 오후 12:41

 • 

저장 5조회 1,301

댓글 2