AI에게 침투부의 미래를 묻다
www.youtube.com
'너 반모 알아?, 반모로 대답해', '대전 왕잉어빵의 서울행 다마스 퀵 배송비용을 계산해줘', '배우 박정민의 2024년 수상 개수를 예.측.해.봐'
답변이나 대응이 제대로 나올까 싶은 질문들을 '챗GPT'(3.5,4.0), 'BARD', '심심이'(?) 와 같은 주요 LLM 모델에 던지는 영상을 보게 되었다.
어이없어 보이는 질문들에 찰떡같이 답변을 내놓기도 하고, 각 서비스의 특성이 잘 드러나는 답변을 보면서 '이색적인' 벤치마크를 만드는 것도 중요하겠다는 생각이 들었다.
실제로 LLM의 벤치마크는 다른 AI 태스크와 달리 특정 지표만으로 나타내기 어렵다. 그래서 언어, 태스크, 수행방식 등에 따라 다양한 지표들이 만들어 지고 있다. 최근에는 전문 지식, 일종의 시험 문제를 해결하던 지표가 아닌 GAIA(a benchmark for General AI Assistants)와 같이 일상처리능력을 평가하는 벤치마크가 나왔다고 한다.
https://www.aitimes.com/news/articleView.html?idxno=155502(GAIA)
해당 연구에서는 사람이 92%, GPT-4가 15%에 불과한 성적을 보였다고 하지만... 인내심은 GPT 가 압도적이지 않을까...?
https://www.youtube.com/watch?v=pE0Ewf2D-ZE
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 10일 오전 2:48