세계 최대의 ML 커뮤니티인 허깅페이스에서 15조개의 토큰으로 이루어진 데이터 FineWeb을 공개했습니다.
2013년부터 2024년 사이의 모든 CommonCrawl 데이터(전세계 모든 공개된 웹에서 가져온 데이터)를 필터링하고 중복을 제거한 매우 고품질의 데이터셋입니다.
이 필터링을 위해 200개 이상의 필터링 모델을 학습시켜 필터링에 사용했다고 합니다. 또한 이 모델들을 지속적으로 학습시킬 것이라 앞으로 품질이 더 좋아질 것이라고 하고요.
또한 LLM 모델을 이 데이터셋으로 훈련시켰을 때 성능이 더 좋아진 것을 확인할 수 있었다고 합니다.
마침 Llama 3의 학습 데이터가 15조개의 토큰으로 학습시켰다는 리포트가 나온 직후인 것이 재밌는데요. Llama 3와 FineWeb으로 LLM 연구가 또 한 발짝 진보하겠네요. 한 달 후가 벌써부터 기대됩니다. 😎🍿🥤
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 4월 21일 오전 9:47
참고로 GPT-4를 훈련시킨 토큰수는 약 13조개, Gemini는 약 16조개로 알려져있습니다. (정확한 리포트가 있는 건 아니고 추측)