Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking
arXiv.org
오픈 소스 LLM, 워터마크로 안전하게
이 논문에서는 오픈 소스 대규모 언어 모델(LLM)의 오용을 탐지하기 위한 워터마킹 기술을 연구합니다. 저작권 침해 탐지와 생성된 텍스트 탐지라는 두 가지 오용 시나리오를 정의하고, 각 시나리오에 적용 가능한 워터마킹 알고리즘을 제안합니다. 또한, 실제 환경에서 추가적인 미세 조정이 워터마크에 미치는 영향과 워터마크가 LLM 성능에 미치는 영향을 평가합니다. 실험 결과, 백도어 워터마킹은 저작권 침해 탐지에 효과적이며, 추론 시간 워터마크 추출은 두 시나리오 모두에 적용 가능하지만 추가적인 미세 조정에 대한 강건성이 떨어지고 LLM 성능에 더 큰 영향을 미치는 것으로 나타났습니다.
https://arxiv.org/abs/2503.04636
APPO: 오프라인 강화 학습의 효율적인 해법
이 논문에서는 오프라인 선호도 기반 강화 학습(PbRL)을 위한 계산적으로 효율적인 알고리즘인 APPO(Adversarial Preference-based Policy Optimization)를 제안합니다. APPO는 정책과 모델 간의 2인자 게임으로 PbRL을 공식화하여 불확실성 하에서 보수적인 학습을 보장합니다. 이를 통해 계산적으로 다루기 힘든 신뢰 집합 구성 없이 샘플 복잡도 경계를 보장합니다. 또한, 함수 근사 및 제한된 궤적 집중도에 대한 표준 가정을 사용하여 샘플 복잡도 경계를 도출합니다. 연속 제어 작업에 대한 실험 결과는 APPO가 복잡한 데이터 세트에서 효과적으로 학습하고 기존 최첨단 방법과 비슷한 성능을 보여줍니다.
https://arxiv.org/abs/2503.05306
[마감임박] 6개월 집중 AI 리서처 양성과정 아이펠 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 3월 10일 오전 7:06
안
... 더 보기