<한국어 코퍼스 처리 및 데이타 분석>

커리어리 친구들, LLaMA3와 같은 고성능 LLM이 오픈소스로 등장하면서 이제 우리가 해야 할 일 중 하나는 이러한 고성능 오픈소스 언어모델에 고품질 한국어 코퍼스를 잘 학습시켜서 우리말을 보다 더 잘 하도록 만드는 것일텐데요. 그렇게 하기 위해서는 고품질 한국어 코퍼스를 잘 만들 필요가 있다고 아래의 깃허브 저자는 주장합니다.


물론 저도 동의하고 그래서 여러분들께 그것이 무엇인지 알려 드리고 공유합니다.


좀더 상세히 말하자면, 기존에 Korean Sentence Splitter로 알려진 Kss를 이번에 6.0.0 버전으로 업데이트 하고 이름을 Korean String processing Suite로 변경하게 되었다고 합니다.


Kss 6.0.0 부터는 더 이상 문장분리 기능에만 국한하지 않고 딥러닝을 사용하지 않는 범위에서 할 수 있는 거의 모든 한국어 문자열 처리를 제공합니다. 기존의 문장분리 기능을 포함하여 약 41가지 모듈을 제공하고 이를 통해 다양한 한국어 코퍼스 처리 및 데이터 분석을 수행 할 수 있게 되었습니다.


3년전 카카오브레인에서 공개했던 Pororo의 non-deeplearning 버전과 비슷한 컨셉이라고 보실 수도 있을 것 같고, api도 기존의 함수 방식에서 객체 방식으로 변경하였습니다.

GitHub - hyunwoongko/kss: KSS: Korean String processing Suite

GitHub

GitHub - hyunwoongko/kss: KSS: Korean String processing Suite

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 28일 오전 2:05

댓글 0