[1004]모두에게 전하는 모두연 AI뉴스!

  • 숨겨진 이미지 정보의 보고, AltText! 멀티모달 모델 성능 향상의 비밀

이 논문에서는 멀티모달 모델의 성능 향상을 위해 이미지 캡션 데이터, 특히 웹에서 수집된 AltText와 합성 캡션을 활용하는 방법을 연구했습니다. AltText는 이미지-텍스트 정렬도는 낮지만 다양한 정보를 제공하며, 합성 캡션은 정렬도를 높여 성능 향상에 기여합니다. CLIP, 멀티모달 LLM, Diffusion 모델에 대한 실험 결과, 각 모델은 선호하는 캡션 형식이 다르다는 것을 확인했습니다. 멀티모달 모델의 성능을 극대화하려면 AltText와 합성 캡션을 적절히 혼합하고 모델에 맞는 캡션 형식을 사용해야 합니다.


https://huggingface.co/papers/2410.02740


  • AI 드림팀 결성! Agglomerative Model로 최강 AI 탄생

이 논문에서는 여러 인공지능 모델을 하나로 합쳐서 더 똑똑한 모델을 만드는 방법을 연구했습니다. 각 모델마다 잘하는 분야가 다른데, 이 장점들을 모아서 하나의 모델로 만드는 거죠. 마치 여러 명의 선생님에게 배우는 것과 같은 원리인데, 이를 'Agglomerative Model'이라고 정의합니다. 연구진들은 다양한 방법을 시도했는데, 그 중에서도 'PHI Standardization (PHI-S)'라는 기술이 가장 효과적이었습니다. PHI-S는 각 모델의 특징을 균등하게 조정해서, 하나의 모델로 잘 합쳐지도록 돕는 역할을 했습니다. 이 기술 덕분에 새로 만들어진 모델은 이미지 인식, 이미지 분류 등 다양한 작업에서 더 뛰어난 성능을 보여주었습니다.


https://huggingface.co/papers/2410.01680


AI학교 아이펠에서 최신 AI연구를 완성해보세요! https://bit.ly/3Y0ZO7Q
AI엔지니어 선배팅 : https://forms.gle/d35G1TMSvdFPXFSdA

Paper page - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

huggingface.co

Paper page - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 4일 오전 7:06

댓글 0

    함께 읽은 게시물

    < 진짜 강함은 자기 틀림을 인정하는 용기에서 나온다 >

    1. 진짜로 강한 사람이 왜 부드러운 줄 아는가? 유연하기 때문이다.

    ... 더 보기

    6월 초, 새로운 바이브 코딩과 SW 개발의 전환의 시대

    ... 더 보기

    2025년 2분기 AI 세미나

    55check.imweb.me

    2025년 2분기 AI 세미나