Paper page - SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
huggingface.co
SigLIP 2: 다국어 비전-언어 모델의 새로운 기준!
SigLIP 2는 다국어 비전-언어 인코더 제품군으로, 제로샷 분류, 이미지-텍스트 검색, VLM(비전-언어 모델)을 위한 시각적 표현 추출을 포함한 핵심 기능에서 SigLIP보다 성능이 뛰어납니다. 또한 지역화 및 밀도 예측 작업에서 상당한 개선을 이루었습니다. SigLIP 2는 여러 해상도를 지원하고 입력의 기본 종횡비를 유지하는 변형을 포함합니다. 또한 디바이어싱 기술을 포함하는 더 다양한 데이터 혼합으로 훈련되어 다국어 이해도와 공정성이 향상되었습니다. 사용자가 추론 비용과 성능 간의 균형을 맞출 수 있도록 4가지 크기(ViT-B(86M), L(303M), So400m(400M), g(1B))의 모델 체크포인트가 출시되었습니다.
https://huggingface.co/papers/2502.14786
S*, LLM 코드 생성 분야의 게임 체인저?
LLM에 대한 테스트 시간 계산을 늘리면 여러 분야에서 가능성이 있지만, 수학 분야에서 광범위하게 연구되었음에도 불구하고 코드 생성에서는 아직 충분히 연구되지 않았습니다. 이 논문에서는 생성된 코드의 커버리지와 선택 정확도를 크게 향상시키는 최초의 하이브리드 테스트 시간 스케일링 프레임워크인 S를 제안합니다. S는 기존의 병렬 스케일링 패러다임을 순차적 스케일링으로 확장하여 성능의 한계를 뛰어넘습니다. 또한 쌍별 비교를 위해 적응적으로 구별 입력을 생성하는 새로운 선택 메커니즘을 활용하고 실행 기반 정보와 결합하여 올바른 솔루션을 강력하게 식별합니다. S*를 사용하는 DeepSeek-R1-Distill-Qwen-32B는 LiveCodeBench에서 85.7%를 달성하여 o1(높음)의 88.5%에 근접합니다.
https://huggingface.co/papers/2502.14382
2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는
데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 21일 오전 9:55