Paper page - Step1X-Edit: A Practical Framework for General Image Editing
huggingface.co
Step1X-Edit: GPT-40 넘보는 오픈소스 이미지 편집 모델 등장
이 논문은 GPT-40, Gemini2 Flash 등 최첨단 비공개 멀티모달 모델과 유사한 성능을 목표로 하는 오픈소스 이미지 편집 모델 Step1X-Edit을 제안합니다. 이 모델은 멀티모달 LLM을 사용하여 참조 이미지와 사용자 편집 명령을 처리하고, 추출된 잠재 임베딩을 확산(diffusion) 이미지 디코더와 통합하여 결과 이미지를 생성합니다. 모델 학습을 위해 11개 편집 카테고리에 걸쳐 100만 개 이상의 고품질 데이터 쌍을 생성하는 파이프라인을 구축했으며, 실제 사용자 지침에 기반한 새로운 벤치마크 GEdit-Bench도 개발했습니다. GEdit-Bench 평가 결과, Step1X-Edit은 기존 오픈소스 모델보다 성능이 우수하며 비공개 모델에 근접한 성능을 보였습니다.
https://huggingface.co/papers/2504.17761
논문 이해 넘어 코드 구현까지: PaperCoder, 다중 에이전트 협업으로 재현성 높이다
이 논문은 머신러닝 과학 논문으로부터 실행 가능한 코드 저장소(repository)를 자동으로 생성하는 다중 에이전트 LLM 프레임워크 PaperCoder를 제안합니다. 코드 구현 부재로 인한 연구 재현의 어려움을 해결하기 위해, PaperCoder는 기획(로드맵 및 아키텍처 설계, 의존성 파악), 분석(세부 구현 명세화), 생성(코드 작성)의 3단계로 작업을 분해합니다. 각 단계는 특화된 에이전트들이 협력하여 수행합니다. 모델 기반 평가 및 원저자 평가 결과, PaperCoder는 기존 방식보다 월등히 높은 품질과 충실도를 갖춘 코드를 생성했으며, PaperBench 벤치마크에서도 뛰어난 성능을 보였습니다.
https://huggingface.co/papers/2504.17192
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 25일 오전 6:12
이
... 더 보기