Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models
arXiv.org
PLM의 숨겨진 위협, 백도어 공격! BTU로 안전하게 방어하세요
이번 소개할 논문은 사전 훈련된 언어 모델(PLM)의 백도어 공격에 대한 방어 방법인 "백도어 토큰 언러닝(BTU)"을 제안합니다. 이 방법은 훈련 단계에서 트리거 토큰을 사전에 감지하고 무력화하는 데 중점을 둡니다. BTU는 백도어 학습이 단어 임베딩 레이어에서 백도어 토큰 매개변수와 클린 토큰 매개변수 간에 뚜렷한 차이를 야기한다는 점과 백도어 공격의 성공이 백도어 토큰 매개변수에 크게 의존한다는 두 가지 핵심 발견을 기반으로 합니다. 이 방법은 이러한 속성을 활용하여 비정상적인 임베딩 매개변수를 식별하고 미세 조정된 언러닝 기술을 사용하여 백도어 동작을 제거합니다. 3개의 데이터 세트와 4가지 유형의 백도어 공격에 대한 광범위한 평가는 BTU가 기본 작업에 대한 모델의 성능을 보존하면서 이러한 위협을 효과적으로 방어한다는 것을 보여줍니다. 이 연구는 백도어 공격으로부터 PLM을 방어하는 데 있어 상당한 진전을 이루었으며, 모델 훈련 단계에서 백도어 위협을 완화하는 새로운 접근 방식을 제시합니다.
https://arxiv.org/abs/2501.03272
AI의 비밀을 파헤치는 탐정, CALM: 유해 행동 추적
이 연구는 대규모 언어 모델(LLM)의 블랙박스 감사에 대한 새로운 접근 방식인 'CALM'을 제안합니다. CALM은 내부 파라미터에 접근하지 않고도 LLM의 불법적이거나 유해한 행동을 유발하는 입력-출력 쌍을 자동으로 찾는 것을 목표로 합니다. 이를 위해 본질적으로 동기가 부여된 강화 학습을 사용하여 감사 에이전트 역할을 하는 LLM을 미세 조정합니다. CALM은 호기심 기반 탐색을 통해 방대하고 불연속적인 프롬프트 공간을 효율적으로 탐색하고 숨겨진 특정 동작을 발견합니다. 실험 결과 CALM은 유명인과 관련된 비방 콘텐츠 생성, 특정 이름 유도 등 다양한 문제 행동을 효과적으로 식별했습니다. 특히, 상대적으로 작은 트랜스포머 기반 모델인 GPT-2를 미세 조정하여 Llama-3-8B와 같은 더 큰 LLM의 바람직하지 않은 동작을 발견할 수 있음을 보여주며, 이는 CALM의 호기심 기반 탐색의 성공을 시사합니다. 이 연구는 블랙박스 LLM 감사에 대한 유망한 방향을 제시하며, 윤리적이고 안전한 인공지능 시스템 개발에 기여할 것으로 기대됩니다.
https://arxiv.org/abs/2501.02997
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 8일 오전 6:03