Generative Emergent Communication: Large Language Model is a Collective World Model
arXiv.org
다중 에이전트 환경에서 언어 출현, 생성적 EmCom으로 규명
이 연구는 생성적 발현 커뮤니케이션(generative EmCom)이라는 새로운 이론적 프레임워크를 제안합니다. 이 프레임워크는 발현 커뮤니케이션, 세계 모델, 대규모 언어 모델(LLM)을 집단적 예측 부호화(CPC)의 관점에서 연결합니다. 이 프레임워크는 다중 에이전트 환경에서 분산 베이지안 추론을 통해 언어와 기호 시스템의 출현을 공식화하여, 기존의 차별적 모델 기반 접근 방식을 넘어섭니다. 생성적 EmCom은 다중 에이전트 강화 학습(MARL)에서 의사 소통의 출현이 제어에서 추론으로 어떻게 도출될 수 있는지 보여주고, LLM이 CPC를 통해 다중 에이전트의 경험을 통합하는 집단적 세계 모델로 해석될 수 있음을 보여줍니다. 이 연구는 언어 출현의 기본 측면을 설명하고, 인간-AI 상호 작용 및 다중 에이전트 시스템을 개선하기 위한 통찰력을 제공합니다.
https://arxiv.org/abs/2501.00226
AI, 이미지 안전 지킨다! 'MLLM-as-a-Judge' 기술 등장
이 논문은 이미지 안전 판별을 위한 새로운 접근 방식인 'MLLM-as-a-Judge'를 제안합니다. 기존 방식들은 복잡하고 주관적인 안전 규칙, 모델의 추론 능력 한계, 그리고 편향성 문제로 인해 어려움을 겪습니다. 이 논문은 이러한 문제들을 해결하기 위해 안전 규칙 객관화, 규칙과 이미지 간 관련성 평가, 안전 규칙 전제 조건 기반 추론, 토큰 확률 기반 판별, 그리고 필요시 연쇄적 사고(Chain-of-Thought)를 통한 심층 추론을 결합한 MLLM 기반의 'CLUE'라는 방법을 제시합니다. 실험 결과에 따르면, 이 방법은 기존 방식들 대비 상당한 성능 향상을 보이며, 특히 안전 규칙 위반 여부를 높은 정확도로 판별합니다. 또한, 이 방법은 인간 라벨링 없이 제로샷 방식으로 작동하여, 비용 효율적이고 확장 가능한 이미지 안전 판별 솔루션을 제공합니다.
https://huggingface.co/papers/2501.00192
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 3일 오전 5:50
답
... 더 보기A
... 더 보기