커리어리 친구들, 국내 우리말 데이터셋 KULE에 대한 업데이트 내용입니다. Transformers 라이브러리가 v3 부터 정말 빠르게 개선되고 있습니다. 라이브러리 내 자체적으로 모델을 훈련시킬 수 있는 Trainer 클래스, 데이터 로더를 정의할 필요 없이 데이터를 로드해 바로 Trainer에 밀어넣을 수 있는 Datasets, 학습 과정 중 성능을 확인할 수 있는 메트릭, 특정 태스크에 맞추어 학습된 모델을 바로 활용할 수 있는 Pipeline, 전처리 부터 훈련, 추론 등 전방위에 걸쳐 다양한 API가 계속해서 추가되고 있습니다. 빠르고 퀄리티 있게 발전하는 라이브러리이니 만큼 작성된 코드를 보는 것만으로도 많은 공부가 되는 것 같습니다. 또한 최근에는 다양한 튜토리얼 노트북, 강의 영상까지 제공해주며 사용자가 라이브러리를 보다 잘 사용할 수 있도록 돕기도 하고 있습니다. 최근 새롭게 추가된 API 들을 익힐 겸 노트북들을 하나 하나 꺼내어 보고 있는데요. 자료가 상당히 유용합니다. 그래서 학습 결과를 기록으로 남기기 위해 튜토리얼을 한국어 버전으로 옮기는 작업을 하고 있습니다. 튜토리얼을 만들 때 활용할 데이터 수급에 애를 먹곤 했는데, KLUE 벤치마크 덕분에 이런 고생을 덜 수 있게 되었네요. KLUE 벤치마크 내 모든 데이터셋에 대해 튜토리얼을 작성할 것은 아니고 문장 예측, 스팬 예측, 토큰 예측 등 대분류에 해당하는 노트북들만 작성하려 합니다. 현재 NLI 데이터를 활용한 문장 예측 모델 학습, STS 데이터를 활용한 Sentence Transformer 학습 그리고 NLI 데이터에 대해 학습된 모델을 활용한 Zero-shot TC 문장 분류 예제에 대한 노트북을 작성해두었습니다. 앞으로 MRC 데이터를 활용한 스팬 예측, NER 데이터를 활용한 토큰 예측 노트북도 차례로 추가할 예정입니다. 한국어 예제 노트북을 보고싶으셨던 분들에게 도움이 되었으면 좋겠습니다 🤗

Huffon/klue-transformers-tutorial

GitHub

Huffon/klue-transformers-tutorial

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 6월 21일 오전 4:20

댓글 0

    함께 읽은 게시물

    아직도 루비 온 레일즈

    ... 더 보기

    Ruby on Rails #46번째 소식

    팁스터

    Ruby on Rails #46번째 소식

     • 

    저장 4 • 조회 3,464


    나는 시스템 빌더이다

    ... 더 보기

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

    F-Lab 에서 주니어 개발자들이(사실 개발자라면 누구나) 보시면 좋을 아티클 모음을 공유해 주었네요! 검색엔진부터 비동기 처리, NoSQL 등 다양한 분야의 아티클들이 공유되어 있으니 관심있으신 분들은 보시면 좋겠습니다. F-Lab 에서 공유해주신 아티클 주제를 나열해보면 다음과 같습니다. 📌 구글이 직접 말하는 검색엔진의 원리 (tali.kr) 📌 검색 엔진은 어떻게 작동하는가 (xo.dev) 📌 네이버의 검색엔진의 특징과 알고리즘 (tistory.com) 📌 [네이버 블로그]네이버 검색의 원리 : 네이버 블... 더 보기

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

    F-Lab : 상위 1% 개발자들의 멘토링

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

     • 

    저장 132 • 조회 3,589


    개발자의 장애 공유 문화

    ... 더 보기

    개발자의 장애 공유 문화

    K리그 프로그래머

    개발자의 장애 공유 문화

     • 

    저장 17 • 조회 3,596



    🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

    ... 더 보기

    달레의 코딩 테스트

    YouTube

    달레의 코딩 테스트