[0903]모두에게 전하는 모두연 AI뉴스!

  • AI의 선과 악: 정렬된 LLM의 '안전 계층' 최초 발견

이 연구는 정렬된 대규모 언어 모델(LLM)의 내부 매개변수에서 악의적인 질문을 식별하고 거부하는 데 중요한 역할을 하는 '안전 계층'을 처음으로 밝혀냈습니다. 연구팀은 다양한 정렬된 LLM에서 안전 계층의 존재를 확인하고, 이 계층의 범위를 정확하게 식별하는 일반화된 방법을 개발했습니다. 또한, 이를 기반으로 미세 조정 과정에서 안전 계층의 그라디언트를 업데이트하지 않음으로써 보안 메커니즘을 유지하는 새로운 미세 조정 방법인 SPPFT를 제안했습니다. 이 연구는 정렬된 LLM의 보안 메커니즘을 밝혀낸 선구적인 연구로, 무해한 AI 및 대규모 모델 보안 분야의 발전을 위한 토대를 마련했습니다.


https://arxiv.org/abs/2408.17003


  • AI가 꿈꾸는 사회: LLM 기반 사회 연결망 생성의 가능성과 한계

이 연구는 대규모 언어 모델(LLM)을 사용하여 사회 연결망을 생성하는 세 가지 프롬프팅 방법(Global, Local, Sequential)을 제안하고, 생성된 연결망의 현실성과 편향 가능성을 평가합니다. 연구 결과, Local 및 Sequential 방법이 Global 방법보다 더 현실적인 연결망을 생성하며, 특히 Sequential 방법은 실제 연결망의 구조적 특징을 잘 모방하는 것으로 나타났습니다. 또한, LLM은 인구통계학적 동질성을 포착하지만, 정치적 동질성을 과대평가하는 경향이 있으며, 이는 LLM이 생성한 관심사에서도 나타납니다. 이 연구는 LLM을 활용한 사회 연결망 생성의 가능성을 보여주지만, 정치적 동질성과 관련된 잠재적 편향을 해결해야 할 필요성을 강조합니다.


https://arxiv.org/abs/2408.16629


데이터를 비즈니스 가치로 연결하는 데이터 사이언티스트 전문 과정 모집 중! : https://bit.ly/3YBFXNf

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 3일 오전 6:29

댓글 0