Paper page - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
huggingface.co
숨겨진 이미지 정보의 보고, AltText! 멀티모달 모델 성능 향상의 비밀
이 논문에서는 멀티모달 모델의 성능 향상을 위해 이미지 캡션 데이터, 특히 웹에서 수집된 AltText와 합성 캡션을 활용하는 방법을 연구했습니다. AltText는 이미지-텍스트 정렬도는 낮지만 다양한 정보를 제공하며, 합성 캡션은 정렬도를 높여 성능 향상에 기여합니다. CLIP, 멀티모달 LLM, Diffusion 모델에 대한 실험 결과, 각 모델은 선호하는 캡션 형식이 다르다는 것을 확인했습니다. 멀티모달 모델의 성능을 극대화하려면 AltText와 합성 캡션을 적절히 혼합하고 모델에 맞는 캡션 형식을 사용해야 합니다.
https://huggingface.co/papers/2410.02740
AI 드림팀 결성! Agglomerative Model로 최강 AI 탄생
이 논문에서는 여러 인공지능 모델을 하나로 합쳐서 더 똑똑한 모델을 만드는 방법을 연구했습니다. 각 모델마다 잘하는 분야가 다른데, 이 장점들을 모아서 하나의 모델로 만드는 거죠. 마치 여러 명의 선생님에게 배우는 것과 같은 원리인데, 이를 'Agglomerative Model'이라고 정의합니다. 연구진들은 다양한 방법을 시도했는데, 그 중에서도 'PHI Standardization (PHI-S)'라는 기술이 가장 효과적이었습니다. PHI-S는 각 모델의 특징을 균등하게 조정해서, 하나의 모델로 잘 합쳐지도록 돕는 역할을 했습니다. 이 기술 덕분에 새로 만들어진 모델은 이미지 인식, 이미지 분류 등 다양한 작업에서 더 뛰어난 성능을 보여주었습니다.
https://huggingface.co/papers/2410.01680
AI학교 아이펠에서 최신 AI연구를 완성해보세요! https://bit.ly/3Y0ZO7Q
AI엔지니어 선배팅 : https://forms.gle/d35G1TMSvdFPXFSdA
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 4일 오전 7:06
데
... 더 보기앞서 포스팅에서는 데이터 팀의 목적이 무엇이고 어떻게 가치를 생성하는지 이야기해보았다. 이번 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자에 대해 이야기해보고자 한다.
... 더 보기데
... 더 보기“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.
... 더 보기