[0802]모두에게 전하는 모두연 AI뉴스!

  • 안전 콘텐츠 보호를 위한 LLM의 활용: ShieldGemma 제품군 소개

이 논문에서는 LLM(Large Language Model) 기반 안전 콘텐츠 검열 모델 제품군인 ShieldGemma를 소개합니다. ShieldGemma는 Gemma2를 기반으로 구축되었으며, 주요 유해 유형(성적으로 노골적인 콘텐츠, 위험한 콘텐츠, 괴롭힘, 증오 발언)에 대한 강력하고 최첨단의 안전 위험 예측을 제공합니다. 공개 및 내부 벤치마크 모두에서 Llama Guard, WildCard 등 기존 모델보다 뛰어난 성능을 보여줍니다. 또한 다양한 안전 관련 작업 및 그 이상에 적용할 수 있는 새로운 LLM 기반 데이터 큐레이션 파이프라인을 제시합니다. 주로 합성 데이터에 대해 훈련된 모델의 강력한 일반화 성능을 입증했습니다. ShieldGemma를 공개함으로써 연구 커뮤니티에 귀중한 리소스를 제공하여 LLM 안전을 발전시키고 개발자가 보다 효과적인 콘텐츠 조정 솔루션을 만들 수 있도록 지원합니다.


https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf


  • Gemma Scope: 대규모 언어 모델 해석 가능성 연구의 새로운 도약

이 논문에서는 대규모 언어 모델(LLM)의 해석 가능성 연구를 촉진하기 위해 Gemma Scope라는 오픈 액세스 JumpReLU SAE(Sparse Autoencoder) 제품군을 소개합니다. SAE는 모델의 잠재 표현을 해석 가능한 특징으로 분해하는 데 사용되는 비지도 학습 방법입니다. Gemma Scope는 Gemma 2 2B 및 9B의 모든 레이어와 하위 레이어, 그리고 Gemma 2 27B의 선택된 레이어에 대해 훈련된 SAE를 제공하여 광범위한 연구 기회를 제공합니다. SAE 품질 평가 결과도 함께 공개되어 있습니다. Gemma Scope는 400개 이상의 SAE와 3천만 개 이상의 학습된 기능을 포함하며, 훈련에는 GPT-3 훈련 컴퓨팅의 20% 이상이 사용되었습니다. 이러한 방대한 자원을 통해 연구 커뮤니티는 SAE를 탐색하고 LLM의 안전성 및 해석 가능성을 개선하며 궁극적으로 보다 안전하고 투명한 AI 시스템 개발에 기여할 수 있습니다.


https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf


[마감임박!] AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 : https://bit.ly/4ePP8iK

ShieldGemma: Generative AI Content Moderation Based on Gemma ShieldGemma Team, Google LLC

storage.googleapis.com

ShieldGemma: Generative AI Content Moderation Based on Gemma ShieldGemma Team, Google LLC

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 2일 오전 5:57

댓글 0