Model & API Provider Analysis | Artificial Analysis
artificialanalysis.ai
반성하는 언어모델 Reflection, 과연 사기극인까?
HyperWrite에서 4일 전 발표한 새로운 오픈소스 AI 모델인 Reflection 70B가 논란의 중심에 섰습니다. Meta의 Llama 3.1-70B Instruct를 기반으로 개발된 이 모델은 모델이 오류를 자체적으로 인지하고 교정할 수 있는 기법인 Reflection tuning을 사용하였으며, 이를 통해 MMMU, HumanEval 등의 주요 벤치마크에서 우수한 성능을 보여주었다고 주장하였습니다. 다양한 테스트에서 LLaMa 3.1 405B를 능가하고, Claude Sonnet 3.5, GPT4o 등의 상용 모델에 버금가능 성능을 보였고, 많은 연구가들이 hallucination 문제를 해결할 수 있을 것이라고 기대, 출시 이후 굉장한 주목을 받았습니다. 하지만 이에 대해 독립 연구단체 Artificial Analysis를 비롯한 여러 연구자들이 연구 결과의 복제에 실패하였고, 이에 연구 결과가 편향되었을 가능성을 제기하였습니다. HyperWrite에서 제공한 API에서는 모델이 제시한 수치의 동작을 기록하였지만, 허깅페이스 오픈API에서는 MMMU에서 LLaMa 3 70B와 동일한 성능인 79%의 accuracy를 기록하여 LLaMa3.1 70B의 84%보다 심각하게 낮은 성능을
보였으며, GPQA에서도 LLaMa 3.1 70B보다 2포인트, MATH에서도 4포인트 낮은 성능을 보였기 때문입니다. 반응에 대해 HyperWrite CEO는 X를 통해 문제를 발견했고 수정하겠다고 알렸으며, Artificial Analysis는 HuggingFace에 Reflection 70B의 weight가 공개되는 대로 재검증을 계획하고 있다고 밝혔습니다.
https://artificialanalysis.ai/
LLM 모듈을 쌓아 구축하는 Foundation Model의 가능성을 보다
모델의 파라메터 수가 점점 커지는 추세의 반면에 제한된 계산 자원을 활용하려는 On-device 니즈가 늘어나는 가운데, 인간 두뇌의 모듈성에서 영감을 받아, LLM을 여러 기능적 모듈로 분해하는 경향이 늘어나고 있습니다. 중국 칭화대, CMU, Stanford, UCLA 등의 공동 연합 연구진들은 이에 LLM에 대한 모듈식 접근법을 제안하였습니다. 각 기능적 모듈을 '벽돌'로 표현하며, 각 모듈을 합쳐 구성 가능한 기초 모델에 대해 조사를 진행한 것입니다. 연구자들은 Pretrained 단계에서 나타나는 기능적 뉴런 파티션인 '창발적 벽돌(emergent bricks)', 그리고 LLM의 능력과 지식을 향상시키기 위해 fine tuning을 통해 구축된 '맞춤형 벽돌(customized bricks)'으로 지칭하며, 모듈의 검색, 라우팅, 병합 등을 함께 조사하였습니다. 이를 통해 연구자들은 자원이 제한된 기기에서의 효율적인 추론, 복잡한 작업을 위한 모듈의 동적 조립, 모듈식 설계를 통한 확장 가능한 능력, 지속적인 모델 업데이트와 개선 가능성을 선보였습니다.
https://arxiv.org/pdf/2409.02877
이론과 실무를 잇-다!
데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 9일 오전 8:56
M
... 더 보기연
... 더 보기코딩과 프로그래밍과 소프트웨어 개발은 다른 것이고, 코딩은 앞으로 대부분은 할 필요가 없어질 것은 맞다고 본다.
... 더 보기