LLM Evaluation Part1. What is a Benchmark Dataset? - Upstage
www.upstage.ai
LLM들이 마구마구 쏟아져 나오는 이 시점에서, 어떤 모델이 어떤 태스크를 잘 해내는지 우리는 어떻게 알아야 할까요?
보통 저희는 "리더보드에서 어떤 회사가 1등했대!" 라고 하면 '아 성능이 좋겠구나' 짐작할 수 밖에 없는데요, 그 속에 숨은 원리를 파악해봅니다.
👉 벤치마크 데이터셋은 LLM이 치는 수능 시험과 같습니다
다른 말로, 모델의 품질을 평가하기 위해 설계된 평가 방식입니다. 벤치마크 데이터셋을 활용해 받은 점수를 통해 학습 모델의 성능을 파악하고 비교할 수 있으며, 더 나아가 특정 모델이 어떤 과목에 능숙한지 파악할 수 있습니다. 이를 활용하면 수학적 추론이 필요한 업무에는 해당 분야 성적이 높은 모델을, 상식적 추론이 필요한 업무에는 상식에 강한 모델을 사용할 수 있습니다.
👀 그럼 어떤 과목들이 있나요?
Big 6 벤치마크 데이터셋 소개 : ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k
각각 어떤 태스크를 평가하는 데이터셋인지 궁금하시면 아래 링크를 눌러보세요!
🔎 영어 공부도 하면서 읽고 싶으시다면 : https://www.upstage.ai/feed/product/llm-evaluation-part1-benchmark-datasets
한글로 읽고 싶으시다면 : https://ko.upstage.ai/feed/product/llm-evaluation-part1-benchmark-datasets
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 28일 오전 8:40
외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기