How Well Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?
Google DeepMind
AI, 추론 능력 시험대에 오르다: SOCRATES 벤치마크로 LLM 평가!
이 논문은 대규모 언어 모델(LLM)이 근본적인 개념을 이해하고 여러 단계의 추론을 거쳐 결론을 도출하는 '잠재 다단계 추론' 능력을 가지고 있는지를 평가했습니다. 연구진은 사전에 학습된 LLM이 훈련 데이터의 패턴을 단순히 외우는 것이 아니라, 여러 가지 사실들을 결합해 새로운 추론을 할 수 있는지 검증하기 위해 'SOCRATES'라는 새로운 벤치마크를 개발했습니다. 평가 결과, LLM은 중간 엔티티의 유형에 따라 성능이 크게 달라졌는데, 국가 관련 추론에서는 80% 이상의 정확도를 보인 반면 연도 관련 추론에서는 5% 정도의 낮은 성능을 보였습니다. 이는 LLM의 잠재 다단계 추론 능력이 특정 도메인에서는 효과적이나, 전반적으로는 아직 개선의 여지가 많다는 것을 시사합니다.
https://deepmind.google/research/publications/133302
phi-4: 작지만 강하다! 14억 파라미터로 GPT-4 뛰어넘는 성능!
이 논문은 Microsoft Research에서 개발한 14억 파라미터 규모의 언어 모델인 phi-4를 소개합니다. phi-4는 데이터 품질에 중점을 둔 훈련 방식을 통해 개발되었으며, 기존 언어 모델들과 달리 합성 데이터를 전략적으로 활용했습니다. 특히 이전 Phi 모델들이 GPT-4를 교사 모델로 활용한 것과 달리, phi-4는 STEM 관련 Q&A 능력에서 교사 모델을 능가하는 성과를 보여주었습니다. phi-3 아키텍처에 최소한의 변화만을 주었음에도 불구하고, 개선된 데이터와 훈련 커리큘럼, 그리고 혁신적인 사후 훈련 기법을 통해 모델 크기 대비 뛰어난 성능을 달성했으며, 특히 추론 중심의 벤치마크에서 우수한 결과를 보여주었습니다.
https://huggingface.co/papers/2412.08905
[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx
기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 12월 13일 오전 6:10