Qwen2 Technical Report
arXiv.org
Qwen2 테크니컬리포트 출시
Qwen2는 지난 6월 Alibaba에서 출시한 LLM으로, GPU가 없는 상황에서도 활용할 수 있는 모델로 기획되었습니다. 모든 모델 크기에 Group Query Attention(GQA)를 적용해 추론 속도 향상과 메모리 사용량이 감소하였으며, 특히 모든 프로젝션 레이어를 양자화된 Linear를 사용했기 때문에 차원이 다른 모델에 비해 상대적으로 작다는 장점을 가졌습니다. Qwen2는 출시 후, Huggingface OpenLLM LeaderBoard2, LMSYS Chatbot Arena에서 Math/Coding 분야 10위권을 달성해 성능이 뛰어난 것으로 알려졌습니다. 오늘 발표된 Qwen2의 테크니컬 리포트에는 tokenizer & model architecture, Pretraining / Post training 정보와, Mixture-of-Experts(MoE) 모델 및 LLM과의 성능 비교를 보고하였습니다. Qwen2는 MMLU, GPQA, Therom등의 주요 영문 벤치마크와 수학 벤치마크인 GSM8K 및 MATH에서 LLama-3-70B, Mixtral 8x22B 등의 주요 모델을 추월하였으며, 특히 난제로 꼽히는 MBPP, HumanEval 등의 Coding 벤치마크에서는 10%의 정확도 향상을 보여주었습니다.
https://arxiv.org/abs/2407.10671
탐욕적 샘플링으로 LLM 성능 향상의 시야를 넓히다 The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism
Allen AI와 베이징대학교의 공동연구진이 Non-Deterministism이 LLM의 성능에 어떤 영향을 미치는가 연구를 진행 후 발표했습니다. 연구자들은 일반적인 대규모 언어 모델(LLM)에 대해 비결정성을 간과하고, 일반적으로 예제당 단일 출력에만 초점을 맞추는 연구 방식이 실제 응용에서 LLM 성능의 변동성에 대한 이해를 제한한다고 주장하였습니다. 이에, 연구진은 탐욕적 디코딩과 샘플링 간의 성능 차이에 대한 핵심 질문들을 탐구하고, 비결정성과 관련된 벤치마크의 일관성을 파악하며, 모델 Behavior에서 어떤 독특함이 나타나는지를 조사함으로써 이 문제를 다루었습니다. 광범위한 실험을 통해, 연구자들은 탐욕적 디코딩이 일반적으로 샘플링 방법보다 우수한 성능을 보여줌을 관찰했습니다. 특히, GPT4 turbo, Llama, Yi 등의 다양한 LLM에서 기법 적용시에 성능 향상을 관찰하였으며, 연구자들이 제시한 정렬법으로 샘플링 분산을 줄일 수 있음을 주목했습니다. 연구자들은 또한 새로운 N-샘플링 접근법을 제시하였으며, 이를 통해 더 작은 LLM이 GPT-4 Turbo와 같은 더 큰 모델과 비슷하거나 능가할 수 있음을 보여주며 sLLM의 미개발 잠재력을 강조하였습니다. 이 연구는 LLM 평가에서 비결정성을 고려하는 것의 중요성을 보여주며, 향후 LLM 개발 및 평가를 위한 통찰을 제공합니다.
https://arxiv.org/pdf/2407.10457AI
개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 7월 16일 오전 8:46