그래서 점수 몇 점 맞았는데? LLM 점수 내기

LLM 모델들은 취업하려는 대학생과 비슷한 방법들로 평가받게 됩니다. 이 모델들의 결과물들을 채점하는 법을 쉽고 큼직하게 설명해보자면 크게 1) 객관식 문제를 자동 채점하기, 2) 서술형 문제를 하나씩 채점하기, 3) 면접보기 이렇게 있습니다.


객관식 문제를 내는 벤치마크 데이터셋 (ex. MMLU) 의 경우, 모델이 4개의 보기 중 가장 가능성이 높은 답을 선택하고, 그 정답 여부를 채점하게 됩니다.

주관식 문제의 경우, 자동화된 솔루션으로는 고성능 LLM인 GPT-4를 판정자로 활용하여 다양한 모델의 응답을 비교하는 MT-Bench 같은 방식이 있습니다.

마지막 면접보기의 경우 Chatbot Arena 와 같은 방식으로 LLM 두개를 비교해서 어떤 모델이 더 좋은 답변을 생성했는지 평가하게 됩니다.


더 자세하게 위의 내용에 대해 글을 읽고 싶으시면 아래 링크를 방문해주세요!

👉 영문 버젼 : https://www.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms

한글 버젼 : https://ko.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms

LLM Evaluation Part2. Mechanics Behind LLM Scoring Systems - Upstage - Upstage

www.upstage.ai

LLM Evaluation Part2. Mechanics Behind LLM Scoring Systems - Upstage - Upstage

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 2월 28일 오전 8:53

 • 

저장 4조회 831

댓글 0

    함께 읽은 게시물

    이제 개발자(응용 애플리케이션 개발자, 대부분의 백엔드도 응용 어플리케이션이다)는 더이상 병목이 아니어야한다. 오히려 기획자와 디자이너가 병목이 되게 만드는 개발자만이 살아남을 것이며, 이전에도 그랬지만 앞으로는 더더욱 개발자가 기획 및 디자인 역량도 갖추어야 경쟁력이 있을 것이다.


    < ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

    1

    ... 더 보기

    OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.

    ... 더 보기