단돈 300원에 LLM을 탈옥시켜보세요.

첫 문장이 다소 자극적이지만, 100% 팩트입니다.


오늘 소개해드릴 논문은 ML 탑티어 학회 ICLR 2024에서 oral paper로 억셉을 받은 Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! 입니다.


이들은 LLM에게 학습되어있는 안전성을 벗겨내기 위해 악의적인 명령과 응답으로 구성되어 있는 데이터셋으로 OpenAI의 gpt-3.5-turbo를 fine-tuning 해보았는데요. 굉장히 쉽게, 적은 데이터만으로도 탈옥이 되었다고 합니다. 심지어, 악의적인 명령과 응답이 아닌 평범한 데이터로 fine-tuning을 해도 safety가 깨지는 것을 확인했다고 합니다.


이래서 OpenAI가 그 이후 모델들은 fine-tuning 서비스를 제공하고 있지 않은 것 아닐까요? 이 기법은 오픈소스 LLM에도 쉽게 적용할 수 있다고 생각됩니다. 최근에 출시된 좋은 성능을 가진 LLaMA 3에 이 공격을 적용하여 악의적으로 사용할 수 있다는 것이 매우 걱정이 되네요..


논문 링크: https://arxiv.org/abs/2310.03693

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 15일 오전 5:35

 • 

저장 15조회 1,600

댓글 0

    함께 읽은 게시물

    [2025 원티드 하이파이브 후기]

    ... 더 보기

    2025 원티드 HIGH FIVE 후기

    Brunch Story

    2025 원티드 HIGH FIVE 후기