Snowflake Arctic Cookbook Series: Arctic's Approach to Data
Medium
커리어리 친구들, Snowflake가 Arctic이라는 모델을 공개했는데 모델 공개 이상으로 흥미로운 것은 쿡북을 공개하고 있다는 것이 흥미롭습니다.
사전 훈렫 데이터에 대한 포스트가 공개되었는 데, 요약하자면 C4, RefinedWeb에 KenLM 기반 필터링, 그리고 Common Crawl 데이터에 대해 실험을 반복하면서 필터링 조건들을 설정할 수 있어요.
여기에 GitHub와 PyPi에서 데이터를 수집하고 Deduplication과 Dependency 기반 Topological Sort. 여기에 프로그래밍 관련 웹 문서들을 추가 발굴해서 OpenWebMath, Cosmopedia, OpenWebText 등. 결과적으로 Common Crawl 기반 데이터가 메인으로 사용했습니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 4월 27일 오후 11:45
K
... 더 보기엘박스는 300억원 규모 시리즈C 투자 라운드를 마무리했다. 이번 라운드는 키움인베스트먼트가 리드했으며 기존 투자자인 SV인베스트먼트도 참여했다. 글로벌 VC 레전드캐피탈도 투자자로 이름을 올렸다.
... 더 보기“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.
... 더 보기코
... 더 보기