사용자가 공유한 콘텐츠
www.hanbit.co.kr
첫 문장이 다소 자극적이지만, 100% 팩트입니다.
오늘 소개해드릴 논문은 ML 탑티어 학회 ICLR 2024에서 oral paper로 억셉을 받은 Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! 입니다.
이들은 LLM에게 학습되어있는 안전성을 벗겨내기 위해 악의적인 명령과 응답으로 구성되어 있는 데이터셋으로 OpenAI의 gpt-3.5-turbo를 fine-tuning 해보았는데요. 굉장히 쉽게, 적은 데이터만으로도 탈옥이 되었다고 합니다. 심지어, 악의적인 명령과 응답이 아닌 평범한 데이터로 fine-tuning을 해도 safety가 깨지는 것을 확인했다고 합니다.
이래서 OpenAI가 그 이후 모델들은 fine-tuning 서비스를 제공하고 있지 않은 것 아닐까요? 이 기법은 오픈소스 LLM에도 쉽게 적용할 수 있다고 생각됩니다. 최근에 출시된 좋은 성능을 가진 LLaMA 3에 이 공격을 적용하여 악의적으로 사용할 수 있다는 것이 매우 걱정이 되네요..
논문 링크: https://arxiv.org/abs/2310.03693
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 15일 오전 5:35
이
... 더 보기🗞️ 간밤에 구글이 Gemini 2.5 Pro를 출시했는데요. 벤치마크 상으로는 GPT-4.5와 Claude 3.7 의 성능을 크게 뛰어넘는 결과를 보여줍니다. 특히 코딩능력이 매우 크게 향상되었는데요.
... 더 보기저의 첫 멘토는 하청 업체에서 고용한 프리랜서 개발자였습니다.
... 더 보기