[0723]모두에게 전하는 모두연 AI뉴스!

  • Meta의 Llama3.1의 벤치마크 유출

Meta의 Llama3.1의 초기 벤치마크가 서브레딧에 유출되었습니다. Meta는 4월 지난 4월 Meta가 출시한 Llama3 8B와 70B를 출시하면서, 가장 큰 모델이 4000억 개 이상의 매개변수를 가질 것이며 아직 훈련 중이라고 밝혔었으며, 지칭한 모델은 4000억개의 매개변수를 가진 Llama3.1 405B로 확인되었습니다. 이 모델은 Llama3.1 8B, 70B와 함께 곧 출시될 예정이었다고 합니다. 유출된 데이터에 따르면 Meta Llama 3.1은 GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem, winograd 등 여러 테스트에서 GPT-4o를 능가합니다. 그러나 HumanEval과 MMLU-social sciences에서는 약세를 보였습니다. 이는 오픈소스 모델이 현재 최고 수준의 비공개 LLM 모델을 처음으로 능가할 수 있다는 점에서 오픈소스 AI 커뮤니티에 중요한 이정표가 될 것이라고 합니다. 특히 이 수치들이 Llama 3.1의 기본 모델에서 나온 것이며, 모델의 잠재력을 완전히 발휘하려면 명령어 튜닝이 중요하기 때문에, Llama 3.1 모델의 Instruct 버전이 출시되면 이러한 결과들 중 많은 부분이 개선될 수 있다고 합니다.


https://www.reddit.com/r/LocalLLaMA/comments/1e98zrb/llama_31_405b_base_model_available_for_download


  • 애플 연구진의 훈련이 필요없는 Video LLM SF-LLaVA

애플 연구진이 훈련이 필요 없는 Video LLM SF-LLaVA를 소개하였습니다. SF-LLaVA는 일반적으로 사용되는 LLM의 토큰 제한을 초과하지 않으면서 상세한 공간적 의미(semantics) 와 장기적인 시간적 맥락(context)을 동시에 포착할 수 있습니다. 비디오 LLM을 위한 두 개의 스트림 : Slow / Fast 입력 설계를 사용하여 샘플링된 비디오 프레임에서 특징을 효과적으로 집계합니다. Slow 경로는 낮은 프레임 속도에서 특징을 추출하면서 가능한 한 많은 공간적 세부 사항을 유지하고(예: 24×24 토큰), Fast 경로는 높은 프레임 속도로 작동하지만 더 큰 공간 풀링 보폭을 사용하여(예: 6배 다운샘플링) 모션 단서에 집중합니다. 결과적으로, 이 설계는 비디오를 따라 세부 사항을 이해하는 데 유익한 공간적, 시간적 특징을 모두 적절하게 포착할 수 있게 합니다. 실험 결과, SF-LLaVA는 광범위한 비디오 작업에서 기존의 훈련이 필요 없는 방법들을 능가하는 성능을 보여줍니다. 일부 벤치마크에서는 비디오 데이터셋으로 미세 조정된 최첨단 비디오 LLM과 비교하여 동등하거나 심지어 더 나은 성능을 달성합니다.


https://arxiv.org/pdf/2407.15841


AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK (편집됨

LLaMA 3.1 405B base model available for download : r/LocalLLaMA

reddit.com

LLaMA 3.1 405B base model available for download : r/LocalLLaMA

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 23일 오전 4:24

댓글 0