[0903]모두에게 전하는 모두연 AI뉴스!

AI의 선과 악: 정렬된 LLM의 '안전 계층' 최초 발견

이 연구는 정렬된 대규모 언어 모델(LLM)의 내부 매개변수에서 악의적인 질문을 식별하고 거부하는 데 중요한 역할을 하는 '안전 계층'을 처음으로 밝혀냈습니다. 연구팀은 다양한 정렬된 LLM에서 안전 계층의 존재를 확인하고, 이 계층의 범위를 정확하게 식별하는 일반화된 방법을 개발했습니다. 또한, 이를 기반으로 미세 조정 과정에서 안전 계층의 그라디언트를 업데이트하지 않음으로써 보안 메커니즘을 유지하는 새로운 미세 조정 방법인 SPPFT를 제안했습니다. 이 연구는 정렬된 LLM의 보안 메커니즘을 밝혀낸 선구적인 연구로, 무해한 AI 및 대규모 모델 보안 분야의 발전을 위한 토대를 마련했습니다.

https://arxiv.org/abs/2408.17003

AI가 꿈꾸는 사회: LLM 기반 사회 연결망 생성의 가능성과 한계

이 연구는 대규모 언어 모델(LLM)을 사용하여 사회 연결망을 생성하는 세 가지 프롬프팅 방법(Global, Local, Sequential)을 제안하고, 생성된 연결망의 현실성과 편향 가능성을 평가합니다. 연구 결과, Local 및 Sequential 방법이 Global 방법보다 더 현실적인 연결망을 생성하며, 특히 Sequential 방법은 실제 연결망의 구조적 특징을 잘 모방하는 것으로 나타났습니다. 또한, LLM은 인구통계학적 동질성을 포착하지만, 정치적 동질성을 과대평가하는 경향이 있으며, 이는 LLM이 생성한 관심사에서도 나타납니다. 이 연구는 LLM을 활용한 사회 연결망 생성의 가능성을 보여주지만, 정치적 동질성과 관련된 잠재적 편향을 해결해야 할 필요성을 강조합니다.

https://arxiv.org/abs/2408.16629

데이터를 비즈니스 가치로 연결하는 데이터 사이언티스트 전문 과정 모집 중! : https://bit.ly/3YBFXNf

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 3일 오전 6:29

함께 읽은 게시물

골빈해커

Chief Maker

3일 전

2019년에 저희 팀에서 퍼블리싱한 CHI 논문. 음성 인터페이스 입코딩을 이용한 프로그래밍 교육.

저장 1 • 조회 1,051

K리그 프로그래머

커피한잔 개발자

5일 전

클로드 코드 Max 한 달 사용 후기

클

클로드 코드 한 달 사용 후기

K리그 프로그래머

•

댓글 2 • 저장 7 • 조회 2,188

한종현

CTO @ Triple Comma Corp.

하루 전

최적화 문제 속에 숨은 의도

험한 산속에 5명이 고립되어 있습니다. 생존하려면 어둡고 위험한 다리를 건너 구조대에게 가야 합니다. 그러나 다음과 같은 제약 조건이 있습니다.

저장 2 • 조회 616

이양일

NaverCloud 백엔드 개발자

2일 전

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

올

MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

요즘IT

저장 7 • 조회 1,039