한국문화에 대한 QA 데이터셋인 CLIcK 등장

최근에 KorMedQA 본지 얼마나 되었다고 또 괜찮은 한국어 데이터셋을 발굴했습니다. KAIST의 Users & Information Lab 에서 만든 데이터셋인 CLIcK 인데요. ML 모델이 한국 문화를 잘 알고 있어야만 답할 수 있는 QA를 1,995개 만들었습니다. (예시는 사진을 참고하세용)


우리가 요즘에 애용하는 LLM 모델들은 외국 출신인 경우가 많은데요.. ㅎㅎ 그 친구들이 한국 문화에 얼마나 잘 적응할 수 있는지 테스트해보면 유용할 것 같네요. 특히 국내 스타트업에서 국내를 대상으로 LLM 활용하여 문제를 푼다면 더 도움이 될 것 같습니다.


다만 논문에서 아쉬운 것은 13개 모델에 대해 평가가 이뤄졌는데 그 모델들이 꽤나 구식이라고 생각합니다. 한국어 특화로는 HyperCLOVA, Global SOTA 모델로는 GPT-4-turbo, Gemini가 부재한 것이 아쉽습니다. 직접 해보는 수밖에 없겠네요.


논문 링크: https://arxiv.org/abs/2403.06412

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 3월 13일 오전 11:37

 • 

저장 11조회 1,450

댓글 0

    함께 읽은 게시물

    데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

    ... 더 보기

    - YouTube

    www.youtube.com

     - YouTube

    그러고보니, 예전에는 입사 지원서에 희망연봉란이 있었는데 언젠가부터 사라졌네요. 왜 없어진걸까요? 제일 중요한건데…


    채용과정은 지원자나 회사입장에서나 엄청난 시간과 노력이 드는거라, 합격했는데 연봉 수준이 안맞아서 취소되면 그 앞의 노력이 얼마나 허무한디…