디자이너도 앱을 만들 수 있을까?
Brunch Story
팀 내에서 GPT-4o를 적극 도입하고 있는데요. 한국어 벤치마크로는 평가된 결과를 찾지 못해서 GPT-4-turbo보다 잘하는건지 못하는건지 긴가민가하고 있었습니다. 3-4일이 되어도 딱히 올라오는 결과들이 없어서 직접 정량적으로 평가를 해보았습니다.
최근에 소개해드렸었던 KAIST Alice Oh 교수님의 랩실에서 제작한 CLIcK 이라는 한국어, 한국문화 데이터셋을 사용해보았는데요.
결론은 GPT-4o가 GPT-4-turbo보다 모든 카테고리에서 좋은 성능을 보여주었습니다! 그래프 첨부해두었으니 확인해보세요 😀 (그래프는 저 대신 gpt-4o 친구가 그려줬어요) 정확한 값이 궁금하다면, 깃헙 레포에 남겨두었으니 참고하세요!
계속해서 코드리뷰하면서 진행했지만 혹여나 평가 중 실수가 있었을까 해서 평가 코드를 그대로 깃헙에 올려두었습니다. 궁금하신 분들은 평가에 사용한 코드도 한번 보시면 좋을 것 같아요!
👉 깃헙 바로가기: https://github.com/corca-ai/evaluating-gpt-4o-on-CLIcK
반응이 좋다면 계속해서 한국어 벤치마크에 대한 SOTA LLM들 평가를 해볼까 합니다! 테스트해보면 좋을 모델, 벤치마크 생각나는대로 댓글에 남겨주세요! 😉
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 18일 오후 3:17
1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.
외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기이
... 더 보기