Thyme: Think Beyond Images
thyme-vl.github.io
AI가 이미지로 사고한다: 오픈소스 멀티모달 AI 'Thyme' 공개
Kwai, CASIA 등 중국 공동 연구진이 이미지를 단순히 보는 것을 넘어 실제로 '이미지로 사고'할 수 있는 혁신적인 오픈소스 AI 모델 'Thyme(Think Beyond Images)'를 공개했습니다. OpenAI가 제시한 '이미지로 사고하기' 개념을 확장한 Thyme는 기존의 '이미지를 통한 사고' 접근법을 뛰어넘어, 실행 가능한 코드를 통해 다양한 이미지 처리와 계산 작업을 자율적으로 생성하고 실행할 수 있습니다. 이는 이미지를 단순한 입력 데이터가 아닌 동적으로 조작 가능한 인지 작업 공간으로 활용한다는 점에서 기존 모델들과 차별화됩니다. Thyme의 핵심 기능은 이미지 자르기, 회전, 대비 향상 등 다양한 이미지 조작 작업과 함께 복잡한 수학적 계산까지 수행할 수 있다는 점입니다. 모델은 주어진 문제의 복잡도를 평가하여 도구 사용 필요성을 스스로 판단하고, 필요시 코드를 통해 여러 작업을 한 번에 수행할 수 있습니다. 연구진은 400만 개 이상의 원시 데이터에서 약 50만 개의 고품질 학습 데이터셋을 구축했으며, 지도 학습과 강화 학습을 결합한 2단계 훈련 전략을 적용했습니다. 특히 GRPO-ATS라는 새로운 알고리즘을 도입하여 추론 탐색과 코드 실행 정밀도 간의 균형을 달성했습니다. 20개 이상의 벤치마크에서 평가한 결과, Thyme는 기본적인 인식, 복잡한 추론, 일반 작업 전반에 걸쳐 일관되고 상당한 성능 향상을 보였습니다. 놀라운 점은 모델의 기본 능력을 활성화하는 데 단 200 GPU 시간만이 필요했다는 것으로, 이는 상당한 계산 효율성을 보여줍니다. 연구진은 완전한 데이터셋, 샌드박스 환경, 훈련 코드를 오픈소스로 공개하여 커뮤니티의 추가 연구와 채택을 촉진할 계획입니다. 이는 고가의 독점 모델에 의존하지 않고도 고급 멀티모달 AI 기능을 구현할 수 있는 길을 열어, AI 민주화에 크게 기여할 것으로 기대됩니다.
https://thyme-vl.github.io/
KAIST, 텍스트 기반 3D 얼굴 스타일화 기술 'StyleMM' 개발
KAIST 연구진이 텍스트 설명만으로 다양한 스타일의 3D 얼굴 모델을 생성할 수 있는 혁신적인 프레임워크 'StyleMM'을 개발했습니다. 이 기술은 기존의 사실적인 3D 얼굴 모델(3DMM)을 디즈니 캐릭터, 픽사 스타일, 오크 등 다양한 예술적 스타일로 자동 변환할 수 있습니다. StyleMM의 가장 큰 특징은 전문 아티스트가 제작한 3D 데이터셋 없이도 텍스트 프롬프트만으로 스타일화된 3D 얼굴을 생성할 수 있다는 점입니다. 연구팀은 이를 위해 'EAS(Explicit Attribute-preserving Stylization)'라는 새로운 이미지 스타일화 기법을 개발했습니다. 이 기법은 얼굴의 주요 특징과 표정을 보존하면서도 원하는 스타일로 변환할 수 있게 해줍니다. 이 시스템은 세 단계의 학습 과정을 거칩니다. 먼저 기하학적 구조를 학습하고, 이어서 형태와 텍스처를 함께 최적화한 뒤, 마지막으로 텍스처를 정제합니다. 특히 'CDL(Consistent Displacement Loss)'이라는 새로운 손실 함수를 도입해 다양한 얼굴 정체성을 유지하면서도 일관된 스타일 변환을 가능하게 했습니다. StyleMM으로 생성된 3D 얼굴 모델은 기존 3DMM과 동일한 구조를 유지하므로, 영화, 애니메이션, 게임 제작 파이프라인에 즉시 통합할 수 있습니다. 실시간 얼굴 애니메이션 적용도 가능해 가상 프로덕션과 메타버스 콘텐츠 제작에 혁신을 가져올 것으로 기대됩니다.
https://kwanyun.github.io/stylemm_page/
실무 중심 AI 전문가 양성 과정 AI학교 아이펠 15기 : http://bit.ly/46SqcG4
경쟁력 있는 데이터 커리어를 만들고 싶다면? 데이터 사이언티스트 전문과정 6기 : http://bit.ly/4mICwNL
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 8월 18일 오전 8:18