Community

Bad Likert Judge: To Jailbreak LLM

Palo Alto Networks 연구팀에서 LLM의 안전 장치를 우회하는 “해시태그#Bad 해시태그#Likert 해시태그#Judge” 공격에 대한 실험 결과를 공개했어요. 😈 이 방법은 LLM에 유해한 컨텐츠를 평가하는 역할을 부여한 후, Multi-Turn으로 점진적으로 질문하여 유해한 콘텐츠 생성을 유도하는 기술이예요. 🚀 연구 결과 기존의 Jailbreak 방법보다 공격 성공률(ASR)이 60% 이상 높았지만, Guardrail을 적용하면 방어력이 강화되는 것으로 나타났어요. 🎯 LLM 기반으로 고객향 서비스를 준비하는 기업에서 Guardrails (or content filtering)에 대한 준비가 필요할꺼 같아요. 동시에 LLM 시대의 AI Compliance도 중요한 영역인거 같아요. 😊 https://www.linkedin.com/pulse/bad-likert-judge-multi-turn-technique-jailbreak-llm-sunghyon-kyeong-advyc/?trackingId=w%2F%2BM9kHBF3rpMyn5QX89Vw%3D%3D

알림

알림이 없습니다