사고 파트너(thought partner)로서 AI
Brunch Story
이에 화답이라도 하듯, MS에서 더 고도화 된 프롬프트로 Gemini 의 성능을 넘겼다고 발표하였습니다. (https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/)
GPT-4와 프롬프팅만으로, 의학 정보로 파인튜닝한 구글의 Med-PaLM 보다 더 높은 성능을 내었던 Medprompt를 이용하였습니다.
OpenAI는 가만히 있는데 MS에서 나서서 반격해 주는 상황도 재미납니다만 😁 앞으로 모델의 성능 평가를 위해서는 Zero-shot CoT 정도만 사용하도록 암묵적인 룰이라도 생겨야하지 않을까 싶네요.
그런 관점에서, 어느 팀이 먼저 Zero-shot CoT로 MMLU 90점을 넘기게 될 지가 내년 2024년의 가장 흥미진진한 관전 포인트가 되지 않을까 싶습니다. 😎🍿🥤
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 12월 13일 오후 3:09
누
... 더 보기한
... 더 보기