<스노우플레이크 Artic 모델 공개>
커리어리 친구들, Snowflake가 Arctic이라는 모델을 공개했는데 모델 공개 이상으로 흥미로운 것은 쿡북을 공개하고 있다는 것이 흥미롭습니다. 사전 훈렫 데이터에 대한 포스트가 공개되었는 데, 요약하자면 C4, RefinedWeb에 KenLM 기반 필터링, 그리고 Common Crawl 데이터에 대해 실험을 반복하면서 필터링 조건들을 설정할 수 있어요. 여기에 GitHub와 PyPi에서 데이터를 수집하고 Deduplication과 Dependency 기반 Topological Sort. 여기에 프로그래밍 관련 웹 문서들을 추가 발굴해서 OpenWebMath, Cosmopedia, OpenWebText 등. 결과적으로 Common Crawl 기반 데이터가 메인으로 사용했습니다.