[1204]모두에게 전하는 모두연 AI뉴스!

* "핵심 토큰"으로 AI 추론 능력 UP! CDPO, LLM의 새로운 가능성을 열다! 이 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해 토큰 수준의 대조적 추정 방법을 제안합니다. 특히, '핵심 토큰'이라는 개념을 도입하여 LLM이 잘못된 추론 경로를 따르도록 유도하는 토큰을 식별합니다. 핵심 토큰을 다른 토큰으로 대체하면 LLM이 올바른 답을 생성할 가능성이 높아진다는 것을 발견했습니다. 이를 기반으로 CDPO라는 새로운 접근 방식을 제안합니다. CDPO는 정렬 프로세스 중에 핵심 토큰을 자동으로 인식하고 토큰 수준에서 보상을 제공합니다. 긍정적 모델과 부정적 모델의 생성 가능성을 비교하여 핵심 토큰을 자동으로 식별하고, 토큰 수준 DPO를 통해 모델을 핵심 토큰 정보에 맞춰 조정합니다. GSM8K 및 MATH500 벤치마크에서 Llama-3 및 deepseek-math 모델을 사용한 실험 결과는 CDPO의 효과를 입증합니다. CDPO는 다양한 기준 전략보다 우수한 성능을 보여줍니다. https://huggingface.co/papers/2411.19943 * VGoT: 멀티샷 영화 제작, 이젠 AI 시대! 이 논문은 짧은 비디오 클립 생성에는 탁월하지만 멀티샷 영화 같은 비디오를 만드는 데는 여전히 어려움을 겪는 현재 비디오 생성 모델의 한계를 해결하기 위해 제안된 VideoGen-of-Thought(VGoT)이라는 새로운 프레임워크를 소개합니다. VGoT는 멀티샷 비디오 생성, 합리적인 내러티브 디자인, 크로스샷 일관성이라는 세 가지 목표를 염두에 두고 설계되었습니다. VGoT는 (1) 간결한 스토리를 각 샷에 대한 자세한 프롬프트로 변환하는 스크립트 생성, (2) 캐릭터 묘사에 충실한 시각적으로 일관된 키프레임을 만드는 키프레임 생성, (3) 스크립트와 키프레임의 정보를 샷으로 변환하는 샷 레벨 비디오 생성, (4) 일관된 멀티샷 출력을 보장하는 스무딩 메커니즘을 포함하는 구조화된 모듈식 시퀀스로 비디오 생성 프로세스를 나눕니다. VGoT는 기존의 비디오 생성 방법보다 멀티샷 비디오를 생성하는 데 있어 우수한 성능을 보여줍니다. https://huggingface.co/papers/2412.02259 [아이펠 12기] 2024 마지막 개강 AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정: https://bit.ly/40T8YFx 기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정 https://bit.ly/4g1gvGk

[1204]모두에게 전하는 모두연 AI뉴스!

알림