서진호

sr. Presales Solution Architect, HPC&AI

<한국어 코퍼스 처리 및 데이타 분석>

커리어리 친구들, LLaMA3와 같은 고성능 LLM이 오픈소스로 등장하면서 이제 우리가 해야 할 일 중 하나는 이러한 고성능 오픈소스 언어모델에 고품질 한국어 코퍼스를 잘 학습시켜서 우리말을 보다 더 잘 하도록 만드는 것일텐데요. 그렇게 하기 위해서는 고품질 한국어 코퍼스를 잘 만들 필요가 있다고 아래의 깃허브 저자는 주장합니다.

물론 저도 동의하고 그래서 여러분들께 그것이 무엇인지 알려 드리고 공유합니다.

좀더 상세히 말하자면, 기존에 Korean Sentence Splitter로 알려진 Kss를 이번에 6.0.0 버전으로 업데이트 하고 이름을 Korean String processing Suite로 변경하게 되었다고 합니다.

Kss 6.0.0 부터는 더 이상 문장분리 기능에만 국한하지 않고 딥러닝을 사용하지 않는 범위에서 할 수 있는 거의 모든 한국어 문자열 처리를 제공합니다. 기존의 문장분리 기능을 포함하여 약 41가지 모듈을 제공하고 이를 통해 다양한 한국어 코퍼스 처리 및 데이터 분석을 수행 할 수 있게 되었습니다.

3년전 카카오브레인에서 공개했던 Pororo의 non-deeplearning 버전과 비슷한 컨셉이라고 보실 수도 있을 것 같고, api도 기존의 함수 방식에서 객체 방식으로 변경하였습니다.

GitHub - hyunwoongko/kss: KSS: Korean String processing Suite

GitHub

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 4월 28일 오전 2:05

저장 9 • 조회 2,296

함께 읽은 게시물

박승규

카카오계열사에서 이것저것 만드는 개발자

하루 전

책이 출판되기 전 마지막 교정을 하고 있는데...

요즘 AI 에이전트 개발, LLM RAG ADK MCP LangChain A2A LangGraph | 박승규 - 교보문고

product.kyobobook.co.kr

저장 3 • 조회 843

psmon

블룸에이아이 서버 엔지니어

16시간 전

영속성을 이용한 상태프로그래밍 - 코틀린편

저장 2 • 조회 196

유용우(요우)

NAVER 백엔드 개발자

7월 21일

"배포했으면 스펙이지"

어떤 서비스가 버그를 가진채로 출시되었고, 사용자들이 그 버그를 전제로 기능을 사용하고 있다면, 그리고 그 위로 너무 많은 새로운 기능들이 쌓여있다면 그건 버그가 아니라 스펙(기능)이라는, 언젠가부터 들었던 업계의 유명한 블랙 유머다.

저장 10 • 조회 2,709

박승규

카카오계열사에서 이것저것 만드는 개발자

3일 전

제가 쓴 "요즘 AI 에이전트 개발"이 출간 예정입니다!

제

요즘 AI 에이전트 개발, LLM RAG ADK MCP LangChain A2A LangGraph | 박승규 - 교보문고

product.kyobobook.co.kr

저장 1 • 조회 1,165

골빈해커

Chief Maker

하루 전

📝 GPT-5 간단 테스트 for S/W 엔지니어링

조회 784

김의중

프론트엔드 개발자

5일 전

Claude Code 실전 가이드: AI 네이티브 개발자로 가는 길

최

Claude Code 실전 가이드: AI 네이티브 개발자로 가는길_Gotama 멘토님

F-Lab : 상위 1% 개발자들의 멘토링

저장 11 • 조회 1,337

비슷한 게시물

박승규 카카오계열사에서 이것저것 만드는 개발자

<랭체인LangChain 노트> - LangChain 한국어 튜토리얼

서진호 sr. Presales Solution Architect, HPC&AI

<파이썬으로 구현하는 로보어드바이저>

서진호 sr. Presales Solution Architect, HPC&AI

<데이터브릭스, DBRX 범용 모델 소스로 공개>

박승규 카카오계열사에서 이것저것 만드는 개발자

MiniMind: 초소형 언어 모델을 밑바닥 부터 2시간만에 만들어보자!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0723]모두에게 전하는 모두연 AI뉴스!

골빈해커 Chief Maker

The Open Source Initiative(OSI)에서 “오픈소스 AI”에 대한 정의를 내 놓았습니다.

주간 인기 TOP 10

골빈해커 Chief Maker

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코

장홍석 스페이스오디티 부대표/CPO

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

Arawn Park Senior Engineer & Engineering Lead

자바 25를 사용해야 하는 이유

석민 커리어 코치

효과적인 경력 기술 가이드

레드버스백맨 리서처 앤 라이터

⟪통계청 2024년 생활시간조사로 본 7가지 핵심 데이터⟫

psmon 블룸에이아이 서버 엔지니어

PRD분석 AI툴

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

📈 성과지표(KPI), 이렇게 설정하고 관리합니다

전민우 백엔드개발자

기능 정의의 중요성

달레 Apollo GraphQL Software Engineer

📊 스택 오버플로우 2025년 개발자 설문조사 결과 💡

박세호 피저블 랩 프로덕트 매니저

실제로 동작하는 PRD란

<한국어 코퍼스 처리 및 데이타 분석>

댓글 0

함께 읽은 게시물

영속성을 이용한 상태프로그래밍 - 코틀린편

"배포했으면 스펙이지"

제가 쓴 "요즘 AI 에이전트 개발"이 출간 예정입니다!

Claude Code 실전 가이드: AI 네이티브 개발자로 가는 길

비슷한 게시물

주간 인기 TOP 10

추천 프로필