🗞️ 허깅페이스, 15조개 토큰 데이터 공개

세계 최대의 ML 커뮤니티인 허깅페이스에서 15조개의 토큰으로 이루어진 데이터 FineWeb을 공개했습니다.


2013년부터 2024년 사이의 모든 CommonCrawl 데이터(전세계 모든 공개된 웹에서 가져온 데이터)를 필터링하고 중복을 제거한 매우 고품질의 데이터셋입니다.


이 필터링을 위해 200개 이상의 필터링 모델을 학습시켜 필터링에 사용했다고 합니다. 또한 이 모델들을 지속적으로 학습시킬 것이라 앞으로 품질이 더 좋아질 것이라고 하고요.


또한 LLM 모델을 이 데이터셋으로 훈련시켰을 때 성능이 더 좋아진 것을 확인할 수 있었다고 합니다.


마침 Llama 3의 학습 데이터가 15조개의 토큰으로 학습시켰다는 리포트가 나온 직후인 것이 재밌는데요. Llama 3와 FineWeb으로 LLM 연구가 또 한 발짝 진보하겠네요. 한 달 후가 벌써부터 기대됩니다. 😎🍿🥤

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 4월 21일 오전 9:47

댓글 2