Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0108]모두에게 전하는 모두연 AI뉴스!

PLM의 숨겨진 위협, 백도어 공격! BTU로 안전하게 방어하세요

이번 소개할 논문은 사전 훈련된 언어 모델(PLM)의 백도어 공격에 대한 방어 방법인 "백도어 토큰 언러닝(BTU)"을 제안합니다. 이 방법은 훈련 단계에서 트리거 토큰을 사전에 감지하고 무력화하는 데 중점을 둡니다. BTU는 백도어 학습이 단어 임베딩 레이어에서 백도어 토큰 매개변수와 클린 토큰 매개변수 간에 뚜렷한 차이를 야기한다는 점과 백도어 공격의 성공이 백도어 토큰 매개변수에 크게 의존한다는 두 가지 핵심 발견을 기반으로 합니다. 이 방법은 이러한 속성을 활용하여 비정상적인 임베딩 매개변수를 식별하고 미세 조정된 언러닝 기술을 사용하여 백도어 동작을 제거합니다. 3개의 데이터 세트와 4가지 유형의 백도어 공격에 대한 광범위한 평가는 BTU가 기본 작업에 대한 모델의 성능을 보존하면서 이러한 위협을 효과적으로 방어한다는 것을 보여줍니다. 이 연구는 백도어 공격으로부터 PLM을 방어하는 데 있어 상당한 진전을 이루었으며, 모델 훈련 단계에서 백도어 위협을 완화하는 새로운 접근 방식을 제시합니다.

https://arxiv.org/abs/2501.03272

AI의 비밀을 파헤치는 탐정, CALM: 유해 행동 추적

이 연구는 대규모 언어 모델(LLM)의 블랙박스 감사에 대한 새로운 접근 방식인 'CALM'을 제안합니다. CALM은 내부 파라미터에 접근하지 않고도 LLM의 불법적이거나 유해한 행동을 유발하는 입력-출력 쌍을 자동으로 찾는 것을 목표로 합니다. 이를 위해 본질적으로 동기가 부여된 강화 학습을 사용하여 감사 에이전트 역할을 하는 LLM을 미세 조정합니다. CALM은 호기심 기반 탐색을 통해 방대하고 불연속적인 프롬프트 공간을 효율적으로 탐색하고 숨겨진 특정 동작을 발견합니다. 실험 결과 CALM은 유명인과 관련된 비방 콘텐츠 생성, 특정 이름 유도 등 다양한 문제 행동을 효과적으로 식별했습니다. 특히, 상대적으로 작은 트랜스포머 기반 모델인 GPT-2를 미세 조정하여 Llama-3-8B와 같은 더 큰 LLM의 바람직하지 않은 동작을 발견할 수 있음을 보여주며, 이는 CALM의 호기심 기반 탐색의 성공을 시사합니다. 이 연구는 블랙박스 LLM 감사에 대한 유망한 방향을 제시하며, 윤리적이고 안전한 인공지능 시스템 개발에 기여할 것으로 기대됩니다.

https://arxiv.org/abs/2501.02997

Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 1월 8일 오전 6:03

함께 읽은 게시물

골빈해커

Chief Maker

7월 8일

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은 다르다.

비단 개발자 관점에서만이 아니라, 기획자, 디자이너도 마찬가지로 다른 방식을 써야한다.

저장 3 • 조회 2,339

Arawn Park

Senior Engineer & Engineering Lead

4일 전

자바 25를 사용해야 하는 이유

스

곧 출시될 자바 25는 가능한 빨리 도입하세요

kr.linkedin.com

•

저장 15 • 조회 1,412

달레

Apollo GraphQL Software Engineer

7월 7일

📢 리트코드 스터디 5기 모집합니다!

코

리트코드 스터디 5기 모집 공지 · DaleStudy/leetcode-study · Discussion #1599

lnkd.in

저장 4 • 조회 2,503

psmon

웹노리라이터

2일 전

PRD분석 AI툴

저장 5 • 조회 824

석민

커리어 코치

7월 6일

어려움을 극복하는 힘

지

댓글 1 • 저장 5 • 조회 950

이원형

라인플러스 소프트웨어 엔지니어

3일 전

인프라 엔지니어의 교과서 개정 2판

근

저장 1 • 조회 1,356