Paper page - Competitive Programming with Large Reasoning Models
huggingface.co
강화 학습, o1-ioi로 대규모 언어 모델의 코딩 및 추론 능력 대폭 향상 증명!
이 논문에서는 대규모 언어 모델(LLM)에 강화 학습을 적용하면 복잡한 코딩 및 추론 작업의 성능이 크게 향상된다는 것을 보여줍니다 또한 범용 추론 모델인 OpenAI o1 및 o3의 초기 체크포인트를 2024년 국제 정보 올림피아드(IOI)에서 경쟁하기 위해 설계된 수작업 추론 전략을 사용하는 도메인별 시스템인 o1-ioi와 비교합니다 o1-ioi로 IOI 2024에 실시간으로 참가하여 수작업 테스트 시간 전략을 사용하여 49번째 백분위수를 기록했습니다 완화된 경쟁 제약 조건에서 o1-ioi는 금메달을 획득했습니다 그러나 나중에 o3와 같은 모델을 평가할 때 o3는 수작업 도메인별 전략이나 완화된 제약 조건 없이 금메달을 획득한다는 것을 알 수 있습니다 이러한 결과는 o1-ioi와 같은 특수 파이프라인이 상당한 개선을 가져오지만 스케일업된 범용 o3 모델이 수작업 추론 휴리스틱에 의존하지 않고 이러한 결과를 능가한다는 것을 보여줍니다 특히 o3는 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자와 동등한 CODEFORCES 등급을 얻습니다 전반적으로 이러한 결과는 도메인별 기술에 의존하기보다는 범용 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 도메인에서 최첨단 AI를 향한 강력한 경로를 제공함을 나타냅니다
https://huggingface.co/papers/2502.06807
VLM 사전 훈련, 1,000억 이미지-텍스트 쌍으로 문화적 다양성 문제 해결
이 논문에서는 최대 1,000억 개의 이미지-텍스트 쌍으로 구성된 대규모 데이터 세트인 WebLI-100B를 사용하여 비전-언어 모델(VLM)을 사전 훈련하는 효과를 조사합니다. COCO 캡션과 같은 서구 중심적 벤치마크에서는 성능 향상이 제한적이지만, 문화적 다양성과 관련된 작업에서는 1,000억 개 규모의 데이터 세트를 사용할 때 상당한 이점을 얻을 수 있습니다. 저자원 언어에서도 개선이 나타났으며, CLIP과 같은 품질 필터를 사용하여 데이터 세트 크기를 줄이면 성능이 향상되지만 데이터 세트의 문화적 다양성이 감소할 수 있습니다. 이러한 결과는 기존 벤치마크가 1,000억 개의 예제로 노이즈가 있는 원시 웹 데이터를 스케일링하는 것에서 크게 이점을 얻지 못할 수 있지만 포괄적인 다중 모드 시스템을 구축하려면 이러한 데이터 규모가 중요하다는 것을 강조합니다.
https://huggingface.co/papers/2502.07617
2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 12일 오전 7:13