LLaMA 3.1 405B base model available for download : r/LocalLLaMA
reddit.com
Meta의 Llama3.1의 벤치마크 유출
Meta의 Llama3.1의 초기 벤치마크가 서브레딧에 유출되었습니다. Meta는 4월 지난 4월 Meta가 출시한 Llama3 8B와 70B를 출시하면서, 가장 큰 모델이 4000억 개 이상의 매개변수를 가질 것이며 아직 훈련 중이라고 밝혔었으며, 지칭한 모델은 4000억개의 매개변수를 가진 Llama3.1 405B로 확인되었습니다. 이 모델은 Llama3.1 8B, 70B와 함께 곧 출시될 예정이었다고 합니다. 유출된 데이터에 따르면 Meta Llama 3.1은 GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem, winograd 등 여러 테스트에서 GPT-4o를 능가합니다. 그러나 HumanEval과 MMLU-social sciences에서는 약세를 보였습니다. 이는 오픈소스 모델이 현재 최고 수준의 비공개 LLM 모델을 처음으로 능가할 수 있다는 점에서 오픈소스 AI 커뮤니티에 중요한 이정표가 될 것이라고 합니다. 특히 이 수치들이 Llama 3.1의 기본 모델에서 나온 것이며, 모델의 잠재력을 완전히 발휘하려면 명령어 튜닝이 중요하기 때문에, Llama 3.1 모델의 Instruct 버전이 출시되면 이러한 결과들 중 많은 부분이 개선될 수 있다고 합니다.
https://www.reddit.com/r/LocalLLaMA/comments/1e98zrb/llama_31_405b_base_model_available_for_download
애플 연구진의 훈련이 필요없는 Video LLM SF-LLaVA
애플 연구진이 훈련이 필요 없는 Video LLM SF-LLaVA를 소개하였습니다. SF-LLaVA는 일반적으로 사용되는 LLM의 토큰 제한을 초과하지 않으면서 상세한 공간적 의미(semantics) 와 장기적인 시간적 맥락(context)을 동시에 포착할 수 있습니다. 비디오 LLM을 위한 두 개의 스트림 : Slow / Fast 입력 설계를 사용하여 샘플링된 비디오 프레임에서 특징을 효과적으로 집계합니다. Slow 경로는 낮은 프레임 속도에서 특징을 추출하면서 가능한 한 많은 공간적 세부 사항을 유지하고(예: 24×24 토큰), Fast 경로는 높은 프레임 속도로 작동하지만 더 큰 공간 풀링 보폭을 사용하여(예: 6배 다운샘플링) 모션 단서에 집중합니다. 결과적으로, 이 설계는 비디오를 따라 세부 사항을 이해하는 데 유익한 공간적, 시간적 특징을 모두 적절하게 포착할 수 있게 합니다. 실험 결과, SF-LLaVA는 광범위한 비디오 작업에서 기존의 훈련이 필요 없는 방법들을 능가하는 성능을 보여줍니다. 일부 벤치마크에서는 비디오 데이터셋으로 미세 조정된 최첨단 비디오 LLM과 비교하여 동등하거나 심지어 더 나은 성능을 달성합니다.
https://arxiv.org/pdf/2407.15841
AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK (편집됨
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 7월 23일 오전 4:24
OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.
... 더 보기제
... 더 보기초중고딩 어렸을 적 과학시간에 석유와 석탄이 만들어지는 원리와 과정을 배울 때마다 이해가 되지 않아서 그냥 외웠었다. 석유는 공룡을 비롯 동물이 죽어서 만들어지고 석탄은 식물이 죽어서 만들어진다고 배웠는데, 석탄이야 식물이 워낙 많았고 죽으면 자연스럽게 땅에 묻히니 그럴 수도 있겠다 이해가 되었지만, 석유는 아무리 생각해도 말이 안되었다. 동물이 화석이 될 확율이 극도로 낮다는 점을 생각하면 동물이 한꺼번에 같은 장소에서 갑자기 많이 죽어서 결국 석유까지 될 확율은 매장되어 있는 석유량을 볼 때 더 말이 안된다고 생각했기 때문이다. 그래서 배울 때마다 당시 과학선생님들께 이해가 안된다고 질문을 드렸으나 속시원한 답을 들어본 적은 없었다. 그렇게 10대에 그 궁금증을 묻고 지금까지 잊고 살았다. 그러다 우연히 생각나서 찾아보니...
비행기가 나는 과학적 원리와 마찬가지로 과학자들조차 속 시원하게 설명하기 어려운 질문 중 하나라고 한다. 많은 학설 중 다수의 과학자와 전문가들이 동의하는 하나는 바다 미생물 이론인데, 이 이야기는 들으면서 고개가 끄덕여질 정도로 납득이 되더라.
... 더 보기