LLM 어떻게 평가하는데? 벤치마크 데이터셋에 대하여

LLM들이 마구마구 쏟아져 나오는 이 시점에서, 어떤 모델이 어떤 태스크를 잘 해내는지 우리는 어떻게 알아야 할까요?

보통 저희는 "리더보드에서 어떤 회사가 1등했대!" 라고 하면 '아 성능이 좋겠구나' 짐작할 수 밖에 없는데요, 그 속에 숨은 원리를 파악해봅니다.


👉 벤치마크 데이터셋은 LLM이 치는 수능 시험과 같습니다

다른 말로, 모델의 품질을 평가하기 위해 설계된 평가 방식입니다. 벤치마크 데이터셋을 활용해 받은 점수를 통해 학습 모델의 성능을 파악하고 비교할 수 있으며, 더 나아가 특정 모델이 어떤 과목에 능숙한지 파악할 수 있습니다. 이를 활용하면 수학적 추론이 필요한 업무에는 해당 분야 성적이 높은 모델을, 상식적 추론이 필요한 업무에는 상식에 강한 모델을 사용할 수 있습니다.


👀 그럼 어떤 과목들이 있나요?

Big 6 벤치마크 데이터셋 소개 : ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k

각각 어떤 태스크를 평가하는 데이터셋인지 궁금하시면 아래 링크를 눌러보세요!


🔎 영어 공부도 하면서 읽고 싶으시다면 : https://www.upstage.ai/feed/product/llm-evaluation-part1-benchmark-datasets

한글로 읽고 싶으시다면 : https://ko.upstage.ai/feed/product/llm-evaluation-part1-benchmark-datasets

LLM Evaluation Part1. What is a Benchmark Dataset? - Upstage

www.upstage.ai

LLM Evaluation Part1. What is a Benchmark Dataset? - Upstage

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 2월 28일 오전 8:40

댓글 0

    함께 읽은 게시물

    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기

    이력서에 쓰는 경험

    

    ... 더 보기