단돈 300원에 LLM을 탈옥시켜보세요.

첫 문장이 다소 자극적이지만, 100% 팩트입니다.


오늘 소개해드릴 논문은 ML 탑티어 학회 ICLR 2024에서 oral paper로 억셉을 받은 Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! 입니다.


이들은 LLM에게 학습되어있는 안전성을 벗겨내기 위해 악의적인 명령과 응답으로 구성되어 있는 데이터셋으로 OpenAI의 gpt-3.5-turbo를 fine-tuning 해보았는데요. 굉장히 쉽게, 적은 데이터만으로도 탈옥이 되었다고 합니다. 심지어, 악의적인 명령과 응답이 아닌 평범한 데이터로 fine-tuning을 해도 safety가 깨지는 것을 확인했다고 합니다.


이래서 OpenAI가 그 이후 모델들은 fine-tuning 서비스를 제공하고 있지 않은 것 아닐까요? 이 기법은 오픈소스 LLM에도 쉽게 적용할 수 있다고 생각됩니다. 최근에 출시된 좋은 성능을 가진 LLaMA 3에 이 공격을 적용하여 악의적으로 사용할 수 있다는 것이 매우 걱정이 되네요..


논문 링크: https://arxiv.org/abs/2310.03693

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 15일 오전 5:35

 • 

저장 15조회 1,591

댓글 0

    함께 읽은 게시물

    [서평]일잘러의 비밀, 챗GPT와 GPTs로 나만의 AI 챗봇 만들기

    ... 더 보기

    사용자가 공유한 콘텐츠

    www.hanbit.co.kr

    사용자가 공유한 콘텐츠

    🥊 GPT-4o vs Gemini 2.5 Flash

    ... 더 보기

    🗞️ 간밤에 구글이 Gemini 2.5 Pro를 출시했는데요. 벤치마크 상으로는 GPT-4.5와 Claude 3.7 의 성능을 크게 뛰어넘는 결과를 보여줍니다. 특히 코딩능력이 매우 크게 향상되었는데요.

    ... 더 보기

     • 

    저장 8 • 조회 2,698


    커리어를 쌓아야 할 때 알아야 하는 잔인한 사실들

    1

    ... 더 보기

     • 

    저장 36 • 조회 1,405


    나의 첫 멘토 이야기

    저의 첫 멘토는 하청 업체에서 고용한 프리랜서 개발자였습니다.

    ... 더 보기

     • 

    댓글 1 • 저장 12 • 조회 4,369