그래서 점수 몇 점 맞았는데? LLM 점수 내기
LLM 모델들은 취업하려는 대학생과 비슷한 방법들로 평가받게 됩니다. 이 모델들의 결과물들을 채점하는 법을 쉽고 큼직하게 설명해보자면 크게 1) 객관식 문제를 자동 채점하기, 2) 서술형 문제를 하나씩 채점하기, 3) 면접보기 이렇게 있습니다. 객관식 문제를 내는 벤치마크 데이터셋 (ex. MMLU) 의 경우, 모델이 4개의 보기 중 가장 가능성이 높은 답을 선택하고, 그 정답 여부를 채점하게 됩니다. 주관식 문제의 경우, 자동화된 솔루션으로는 고성능 LLM인 GPT-4를 판정자로 활용하여 다양한 모델의 응답을 비교하는 MT-Bench 같은 방식이 있습니다. 마지막 면접보기의 경우 Chatbot Arena 와 같은 방식으로 LLM 두개를 비교해서 어떤 모델이 더 좋은 답변을 생성했는지 평가하게 됩니다. 더 자세하게 위의 내용에 대해 글을 읽고 싶으시면 아래 링크를 방문해주세요! 👉 영문 버젼 : https://www.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms 한글 버젼 : https://ko.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms