GPT-4o가 GPT-4-turbo보다 한국어 더 잘합니다!!

팀 내에서 GPT-4o를 적극 도입하고 있는데요. 한국어 벤치마크로는 평가된 결과를 찾지 못해서 GPT-4-turbo보다 잘하는건지 못하는건지 긴가민가하고 있었습니다. 3-4일이 되어도 딱히 올라오는 결과들이 없어서 직접 정량적으로 평가를 해보았습니다.

최근에 소개해드렸었던 KAIST Alice Oh 교수님의 랩실에서 제작한 CLIcK 이라는 한국어, 한국문화 데이터셋을 사용해보았는데요.

결론은 GPT-4o가 GPT-4-turbo보다 모든 카테고리에서 좋은 성능을 보여주었습니다! 그래프 첨부해두었으니 확인해보세요 😀 (그래프는 저 대신 gpt-4o 친구가 그려줬어요) 정확한 값이 궁금하다면, 깃헙 레포에 남겨두었으니 참고하세요!

계속해서 코드리뷰하면서 진행했지만 혹여나 평가 중 실수가 있었을까 해서 평가 코드를 그대로 깃헙에 올려두었습니다. 궁금하신 분들은 평가에 사용한 코드도 한번 보시면 좋을 것 같아요!

👉 깃헙 바로가기: https://github.com/corca-ai/evaluating-gpt-4o-on-CLIcK

반응이 좋다면 계속해서 한국어 벤치마크에 대한 SOTA LLM들 평가를 해볼까 합니다! 테스트해보면 좋을 모델, 벤치마크 생각나는대로 댓글에 남겨주세요! 😉

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 18일 오후 3:17

댓글 0

    함께 읽은 게시물

    < 애플을 구한 건 스티브 잡스의 '두 번째 버전'이었다 >

    1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.

    ... 더 보기

    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기

    데이터 분석가의 뇌구조가 궁금하다면?

    ... 더 보기

    [광고] 다음 직무 채용 예정입니다.


    - 프러덕트/사업 기획 1인

    - 프러덕트 디자인 1인

    ... 더 보기

    👋 디자이너도 앱을 만들 수 있을까?

    ... 더 보기

    디자이너도 앱을 만들 수 있을까?

    Brunch Story

    디자이너도 앱을 만들 수 있을까?

    기본적으로 알아야 할 머신러닝 알고리즘 10

    머신러닝을 공부하면서 늘 헤깔리는 것중에 하나가 알고리즘 부문인 거 같습니다. 마침, 이 알고리즘을 깔끔하게 정리한 글이 있어 공유해 봅니다. 데이터 영역에 관심있는 분들 뿐만 아니라 머신러닝이나 AI에 관심있는 분들은 원문을 꼭 일독하시길 강추(!)합니다~^^ 📜 지도학습 👉 선형회귀, 로지스틱 회귀, K-최근접 이웃, 나이브 베이즈, 결정 트리, 랜덤 포레스트, XG부스트, 라이트GBM, 📜 비지도학습 👉 K-평균 군집화, 주성분 분석(PCA) 🔔 선형 회귀(Linear Regression) 🚩 문제 유... 더 보기

    확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

    요즘IT

    확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

     • 

    저장 96 • 조회 3,658