<스노우플레이크 Artic 모델 공개>

커리어리 친구들, Snowflake가 Arctic이라는 모델을 공개했는데 모델 공개 이상으로 흥미로운 것은 쿡북을 공개하고 있다는 것이 흥미롭습니다.


사전 훈렫 데이터에 대한 포스트가 공개되었는 데, 요약하자면 C4, RefinedWeb에 KenLM 기반 필터링, 그리고 Common Crawl 데이터에 대해 실험을 반복하면서 필터링 조건들을 설정할 수 있어요.


여기에 GitHub와 PyPi에서 데이터를 수집하고 Deduplication과 Dependency 기반 Topological Sort. 여기에 프로그래밍 관련 웹 문서들을 추가 발굴해서 OpenWebMath, Cosmopedia, OpenWebText 등. 결과적으로 Common Crawl 기반 데이터가 메인으로 사용했습니다.

Snowflake Arctic Cookbook Series: Arctic's Approach to Data

Medium

Snowflake Arctic Cookbook Series: Arctic's Approach to Data

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 4월 27일 오후 11:45

댓글 0

    함께 읽은 게시물

    Kotlin의 Scope 함수 정리

    K

    ... 더 보기

    Kotlin의 Scope 함수 정리

    www.daleseo.com

    Kotlin의 Scope 함수 정리

    발이 닿지 않는 바다에서

    ... 더 보기

    발이 닿지 않는 바다에서

    hajoeun.com

    발이 닿지 않는 바다에서

     • 

    저장 5 • 조회 3,740


    엘박스는 300억원 규모 시리즈C 투자 라운드를 마무리했다. 이번 라운드는 키움인베스트먼트가 리드했으며 기존 투자자인 SV인베스트먼트도 참여했다. 글로벌 VC 레전드캐피탈도 투자자로 이름을 올렸다.

    ... 더 보기

    thebell Free

    m.thebell.co.kr

    thebell Free

    조회 393


    🚀 [ 임원에게 통하는 데이터 분석 보고서 작성하기 ] + 책 후기

    목적이 없는 분석은 주장이 없는 글과 같은데, 독자를 설득시킬 수 없다면 실패한 보고서라고 할 수 있습니다. 🔺 보고서를 작성하기 어려운 이유가 무엇인가? - 사람들은 데이터 분석을 통해 '새로운' 인사이트를 기대하지만 - 목적과 근거가 분명한 데이터 분석을 해야 보고서 역시 그에 맞게 만들 수 있다 - 따라서 분석 자체가 뾰족한 목적을 갖고 있어야 한다 1️⃣ (분석 전) 다양한 가설을 세우자 - 가설들은 결국 뾰족한 분석의 목적을 세우는 동시에 근거로 활용 된다 - 뾰족한 가설을 세우지 못하면 분석 과정에서 길을 ... 더 보기

    만쿠소 / 성공한 창업자의 프로필로 보는 당신이 창업에 성공할 확률 | 커리어리

    커리어리

    만쿠소 / 성공한 창업자의 프로필로 보는 당신이 창업에 성공할 확률 | 커리어리

     • 

    저장 18 • 조회 1,632


    “직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.

    ... 더 보기

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    뉴시스

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    구현패턴으로 DB사용비용을 10배줄이기

    ... 더 보기

    kopring-reactive-labs/Docs/eng/08_bulkprocessor.md at main · psmon/kopring-reactive-labs

    GitHub

    kopring-reactive-labs/Docs/eng/08_bulkprocessor.md at main · psmon/kopring-reactive-labs

     • 

    저장 27 • 조회 2,259