[0909]모두에게 전하는 모두연 AI뉴스!

반성하는 언어모델 Reflection, 과연 사기극인까?

HyperWrite에서 4일 전 발표한 새로운 오픈소스 AI 모델인 Reflection 70B가 논란의 중심에 섰습니다. Meta의 Llama 3.1-70B Instruct를 기반으로 개발된 이 모델은 모델이 오류를 자체적으로 인지하고 교정할 수 있는 기법인 Reflection tuning을 사용하였으며, 이를 통해 MMMU, HumanEval 등의 주요 벤치마크에서 우수한 성능을 보여주었다고 주장하였습니다. 다양한 테스트에서 LLaMa 3.1 405B를 능가하고, Claude Sonnet 3.5, GPT4o 등의 상용 모델에 버금가능 성능을 보였고, 많은 연구가들이 hallucination 문제를 해결할 수 있을 것이라고 기대, 출시 이후 굉장한 주목을 받았습니다. 하지만 이에 대해 독립 연구단체 Artificial Analysis를 비롯한 여러 연구자들이 연구 결과의 복제에 실패하였고, 이에 연구 결과가 편향되었을 가능성을 제기하였습니다. HyperWrite에서 제공한 API에서는 모델이 제시한 수치의 동작을 기록하였지만, 허깅페이스 오픈API에서는 MMMU에서 LLaMa 3 70B와 동일한 성능인 79%의 accuracy를 기록하여 LLaMa3.1 70B의 84%보다 심각하게 낮은 성능을
보였으며, GPQA에서도 LLaMa 3.1 70B보다 2포인트, MATH에서도 4포인트 낮은 성능을 보였기 때문입니다. 반응에 대해 HyperWrite CEO는 X를 통해 문제를 발견했고 수정하겠다고 알렸으며, Artificial Analysis는 HuggingFace에 Reflection 70B의 weight가 공개되는 대로 재검증을 계획하고 있다고 밝혔습니다.

https://artificialanalysis.ai/

LLM 모듈을 쌓아 구축하는 Foundation Model의 가능성을 보다

모델의 파라메터 수가 점점 커지는 추세의 반면에 제한된 계산 자원을 활용하려는 On-device 니즈가 늘어나는 가운데, 인간 두뇌의 모듈성에서 영감을 받아, LLM을 여러 기능적 모듈로 분해하는 경향이 늘어나고 있습니다. 중국 칭화대, CMU, Stanford, UCLA 등의 공동 연합 연구진들은 이에 LLM에 대한 모듈식 접근법을 제안하였습니다. 각 기능적 모듈을 '벽돌'로 표현하며, 각 모듈을 합쳐 구성 가능한 기초 모델에 대해 조사를 진행한 것입니다. 연구자들은 Pretrained 단계에서 나타나는 기능적 뉴런 파티션인 '창발적 벽돌(emergent bricks)', 그리고 LLM의 능력과 지식을 향상시키기 위해 fine tuning을 통해 구축된 '맞춤형 벽돌(customized bricks)'으로 지칭하며, 모듈의 검색, 라우팅, 병합 등을 함께 조사하였습니다. 이를 통해 연구자들은 자원이 제한된 기기에서의 효율적인 추론, 복잡한 작업을 위한 모듈의 동적 조립, 모듈식 설계를 통한 확장 가능한 능력, 지속적인 모델 업데이트와 개선 가능성을 선보였습니다.

https://arxiv.org/pdf/2409.02877

이론과 실무를 잇-다!
데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf

Model & API Provider Analysis | Artificial Analysis

artificialanalysis.ai

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 9일 오전 8:56

비슷한 게시물

주간 인기 TOP 10

장홍석 스페이스오디티 부대표/CPO

< 리더를 위한 효율적인 시간 쪼개기 기술 3가지 >

달레 Apollo GraphQL Software Engineer

🍞 Bun이 Anthropic의 가족이 되었습니다! 🎉

하조은 당근 Product Engineer

사이드 프로젝트에 날개를 달아준 클로드 코드

달레 Apollo GraphQL Software Engineer

📻 프로그래머를 위한 프로그래밍 팟캐스트, 달레줄레 🎙️

골빈해커 Chief Maker

📝 AI가 Anthropic의 업무 방식을 어떻게 바꾸고 있는가

기묘한 트렌드라이트 발행인

🚀쿠팡, 지금은 정말 피할 때가 아닙니다

Ruth Hyojin Nam 시니어 QA 매니저

[2부:적용편] 소프트웨어 테스팅에 AI 활용하기 2)

김병호 삼성 SDS

프로세스는 성공을 만들지 못하지만, 실패를 줄인다

빙빙빙 기획

실무진 검증 과제 기반 | 통신3사 마케팅전략 공모전 (~12/2

석민 커리어 코치

방법보다 방향이 중요해요

[0909]모두에게 전하는 모두연 AI뉴스!

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필