오랜만에 굉장히 퀄리티 높은 한국어 데이터셋이 등장한 것 같습니다. 보건 계열 (의사, 간호사, 약사) 자격증 최근 10여년 시험문제를 카이스트와 아주대 의대가 손을 잡고 전처리하여 KorMedMCQA라는 데이터셋을 만들어냈네요. 첨부한 사진을 보다시피 객관식 문제입니다.
Medical 쪽으로 LLM Agent을 활용하려는 시도가 굉장히 많이 이뤄지고 있는데 Agent들을 평가할 때 충분히 사용해볼법한 데이터셋입니다. (저는 의대 다니는 친구들하고 제가 만든 Agent 중 누가 더 잘하는지 테스트해보고 싶네요 ㅋㅋㅋ)
간단히 실험해보았을 때는 LLM 중에서 혹시나 역시나 GPT-4가 가장 좋았다고 합니다. (정확도 83.06%) 새로운 마일스톤을 제시해주는 데이터셋이라고 생각합니다! 정확도 90% 넘는 Agent 개발해보고 싶네요.
논문 링크: https://arxiv.org/abs/2403.01469
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 3월 9일 오후 6:11