Real-time Fake News from Adversarial Feedback
arXiv.org
LLM의 눈으로 가짜 뉴스를 잡아라! 시간의 장벽을 넘어선 탐지 기술
이 논문에서는 대규모 언어 모델(LLM)을 사용하여 가짜 뉴스를 탐지하는 방법을 평가합니다. 특히, LLM의 지식 컷오프 날짜 이후에 발생하는 사건에 대한 가짜 뉴스 탐지 능력에 중점을 둡니다. 기존의 정치적 주장 데이터 세트는 LLM의 훈련 데이터에 포함되어 있을 가능성이 높기 때문에 이러한 테스트에 적합하지 않다는 것을 발견했습니다. 따라서 저자들은 강력한 검색 증강 생성(RAG) 기반 탐지기를 점진적으로 회피할 수 있는 가짜 뉴스를 생성하는 적대적 반복 파이프라인을 제안합니다. 실험 결과는 현재 세계에 대한 가짜 뉴스를 탐지하고 생성할 때 LLM의 동작 방식을 보여줍니다. 이 평가 파이프라인과 데이터 세트는 시간적 분포 변화에서 강력한 사실적 추론 모델에 대한 연구 노력을 장려할 것으로 기대됩니다.
https://arxiv.org/abs/2410.14651
LLM의 숨겨진 백도어를 찾아라! W2SDefense로 안전하게 지키는 AI 보안
이 논문에서는 매개변수 효율적인 미세 조정(PEFT)이 대규모 언어 모델(LLM)과 다운스트림 작업 간의 격차를 해소할 수 있지만 악의적인 공격에 취약하다고 주장합니다. PEFT 이후에도 중독된 LLM은 입력 샘플에 미리 정의된 트리거가 포함된 경우 내재화된 백도어를 활성화할 수 있습니다. 따라서 저자들은 기능 정렬 지식 증류를 기반으로 백도어 공격을 방어하기 위해 W2SDefense라는 새로운 약-강 학습 해제 알고리즘을 제안합니다. 전체 매개변수 미세 조정을 통해 소규모 언어 모델을 훈련하여 클린 교사 모델로 사용합니다. 그런 다음 이 교사 모델은 PEFT를 활용하여 대규모 중독 학생 모델이 백도어를 학습 해제하도록 안내합니다. 이론적 분석과 실험 결과는 W2SDefense가 모델 성능을 저하시키지 않고 백도어 공격을 방어하는 데 탁월한 성능을 보여줍니다.
https://arxiv.org/abs/2410.14425
[마감임박!] AI개발자 과정! 입문자에서 전공자까지! AI학교 아이펠 11기 합류 : https://bit.ly/3Y0ZO7Q
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 21일 오전 5:56