[0319]모두에게 전하는 모두연 AI뉴스!

  • 보는 것 너머를 이해하다: DeepPerception을 통한 MLLM의 인지적 시각 능력 강화

이 논문은 지식 집약적인 시각적 접지 작업을 위해 멀티모달 거대 언어 모델(MLLM)의 인지적 시각 인식 능력을 향상시키는 새로운 접근 방식인 "DeepPerception"을 소개합니다. DeepPerception은 시각적 분석, 비교, 추론을 수행하는 인지 모듈을 통합하여 상세한 지식을 기반으로 객체를 정확하게 식별하고 위치를 파악하는 능력을 향상시킵니다. 실험 결과, DeepPerception은 세밀한 시각적 인식 및 시각적 접지 벤치마크에서 기존 MLLM을 크게 능가하며, 객체 속성 및 관계에 대한 심층적인 지식을 요구하는 복잡한 시각적 추론 작업 처리 능력을 입증했습니다.


https://huggingface.co/papers/2503.12797


  • 프라이버시를 예측하다: LLM을 활용한 차등 프라이버시 합성 텍스트 생성

이 논문은 대규모 언어 모델(LLM)을 사용하여 차등 프라이버시를 보장하는 합성 텍스트를 생성하는 "private prediction"이라는 접근 방식을 제시합니다. 이는 민감한 원본 데이터로 생성 모델을 학습시켜 모델 자체의 프라이버시를 보장하는 대신, 생성된 합성 데이터의 프라이버시를 보장하는 데 초점을 맞춥니다. 사전 학습된 LLM에 원본 데이터를 프롬프트로 제공하고 다음 토큰 예측에 차등 프라이버시를 적용하여, 기존 방식보다 훨씬 많은 양의 고품질 합성 데이터를 생성할 수 있게 되었습니다. 이러한 개선은 향상된 프라이버시 분석과 소프트맥스 계층과 지수 메커니즘 간의 동등성을 활용한 더 나은 프라이버시 선택 메커니즘에서 비롯됩니다.


https://research.google/blog/generating-synthetic-data-with-differentially-private-llm-inference/


[마감임박]
데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A

Paper page - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

huggingface.co

Paper page - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 3월 19일 오전 8:24

댓글 0