https://tatsu-lab.github.io/alpaca_eval/ Instruction-Following 언어 모델을 자동으로 평가하는 AlpacaEval Leaderboard 기준에서
https://tatsu-lab.github.io/alpaca_eval/ Instruction-Following 언어 모델을 자동으로 평가하는 AlpacaEval Leaderboard 기준에서 GPT-4 95.28% Llama2 Chat 70B 92.66% Claude 2 91.36% ChatGPT 89.37% 로 Llama2 Chat이 Claude2, GPT3.5보다 높게 나왔군요. AlpacaEval 은 AlpacaFarm (https://github.com/tatsu-lab/alpaca_farm/tree/main)평가셋을 이용하여 GPT-4 가 응답한 내용과 비교하여 자동으로 평가를 진행합니다. AlpacaEval Leaderboard 가 사람의 리더보드와 높은 상관관계(피어슨 상관계수 0.94)를 보이는 것을 보여주기도 했습니다.