골빈해커

Chief Maker

🗞️ 허깅페이스, 15조개 토큰 데이터 공개

세계 최대의 ML 커뮤니티인 허깅페이스에서 15조개의 토큰으로 이루어진 데이터 FineWeb을 공개했습니다.

2013년부터 2024년 사이의 모든 CommonCrawl 데이터(전세계 모든 공개된 웹에서 가져온 데이터)를 필터링하고 중복을 제거한 매우 고품질의 데이터셋입니다.

이 필터링을 위해 200개 이상의 필터링 모델을 학습시켜 필터링에 사용했다고 합니다. 또한 이 모델들을 지속적으로 학습시킬 것이라 앞으로 품질이 더 좋아질 것이라고 하고요.

또한 LLM 모델을 이 데이터셋으로 훈련시켰을 때 성능이 더 좋아진 것을 확인할 수 있었다고 합니다.

마침 Llama 3의 학습 데이터가 15조개의 토큰으로 학습시켰다는 리포트가 나온 직후인 것이 재밌는데요. Llama 3와 FineWeb으로 LLM 연구가 또 한 발짝 진보하겠네요. 한 달 후가 벌써부터 기대됩니다. 😎🍿🥤

더 많은 콘텐츠를 보고 싶다면?

이미 회원이신가요?

2024년 4월 21일 오전 9:47

저장 15 • 조회 3,129

골빈해커
작성자
Chief Maker • 2024년 04월 21일
https://huggingface.co/datasets/HuggingFaceFW/fineweb
골빈해커
작성자
Chief Maker • 2024년 04월 21일
참고로 GPT-4를 훈련시킨 토큰수는 약 13조개, Gemini는 약 16조개로 알려져있습니다. (정확한 리포트가 있는 건 아니고 추측)

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

하루 전

< 창조도 결국, 뒷받침이 필요하다 >

1. 회사의 본체는 오히려 사무에 있습니다. 연구 성과든 작품이든 뭐든 ’상품‘은, 사무가 제대로 돌아가지 않으면 나올 수 없습니다.

댓글 1 • 저장 1 • 조회 405

골빈해커

Chief Maker

2일 전

장안의 화제 “케이팝 데몬 헌터스”의 제작 기간은 4.5년, 구상 단계부터하면 9년. 제작비는 약 1천억원($70M+) 수준.

역시 뭐든 금방 쉽게 되는 건 없다. 생각보다 엄청난 자금이 들어갔다는 것이 놀라우면서도 부러운 부분. 역시 글로벌이 답이다.

조회 654

골빈해커

Chief Maker

2일 전

실서비스에 반영할 기능을 가끔 바이브 코딩만으로 개발 해 보는데, 두어달 전만해도 어려웠던 구현이 이제 벌써 가능해졌다.

저장 1 • 조회 1,165

골빈해커

Chief Maker

하루 전

The first mover is not always the winner. It’s the last one standing.

조회 612

비슷한 게시물

골빈해커 Chief Maker

📝 LLM의 성능과 규모의 상관관계에 대한 친칠라 스케일링 법칙에 대한 오해와, Llama 3 학습에 돈을 무진장 때려 넣은 이유

강병진 GS 52g Studio 개발자

DeepSeek 관련 음모론...?

강재상 스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

세상 모든 데이터는 주인이 있다

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0305]모두에게 전하는 모두연 AI뉴스!

HoJoong Kim Senior IT guy

[LLM Watch] 차세대 RAG의 특징

백승윤 ML Engineer at Corca, Inc.

우리에게 복잡한 LLM Agent가 꼭 필요할까요?

주간 인기 TOP 10

하조은 당근 Product Engineer

이직하고 싶을 때 보세요

한정수 Software Engineer

작년에 읽은 34권의 책 중 가장 좋았던 책

Arawn Park Senior Engineer & Engineering Lead

제가 리드하고 있는 조직(당근마켓 커뮤니티실)에서 백엔드 엔지니어

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 분석 자료 모음집, 무료로 받아가세요.

석민 커리어 코치

경쟁력 있는 주니어 인재

달레 Apollo GraphQL Software Engineer

🤖 최초의 AI 브라우저, Dia 직접 써봤습니다! 🌐

황경찬(Boaz) P.E.C CEO

Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개

장홍석 스페이스오디티 부대표/CPO

< 가짜 전문가와 진짜 멘토를 구별하는 법 >

레드버스백맨 리서처 앤 라이터

《욕망과 읽기》

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

“뜻밖에 아주 야비하고 어이없는 일을 당하더라도 그것 때문에 괴로

🗞️ 허깅페이스, 15조개 토큰 데이터 공개

댓글 2

함께 읽은 게시물

< 창조도 결국, 뒷받침이 필요하다 >

비슷한 게시물

주간 인기 TOP 10

추천 프로필