구글의 Gemini 발표 자료 중, GPT-4의 성능을 넘었다는 수치가 GPT-4와 실험 방법을 다르게 했기 때문이어서 논란이 많이 일고 있는데요.


이에 화답이라도 하듯, MS에서 더 고도화 된 프롬프트로 Gemini 의 성능을 넘겼다고 발표하였습니다. (https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/)


GPT-4와 프롬프팅만으로, 의학 정보로 파인튜닝한 구글의 Med-PaLM 보다 더 높은 성능을 내었던 Medprompt를 이용하였습니다.


OpenAI는 가만히 있는데 MS에서 나서서 반격해 주는 상황도 재미납니다만 😁 앞으로 모델의 성능 평가를 위해서는 Zero-shot CoT 정도만 사용하도록 암묵적인 룰이라도 생겨야하지 않을까 싶네요.


그런 관점에서, 어느 팀이 먼저 Zero-shot CoT로 MMLU 90점을 넘기게 될 지가 내년 2024년의 가장 흥미진진한 관전 포인트가 되지 않을까 싶습니다. 😎🍿🥤

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 12월 13일 오후 3:09

 • 

저장 3조회 2,828

댓글 0

    함께 읽은 게시물

    PM의 '사고 파트너(thought partner)'로서 AI

    ... 더 보기

    사고 파트너(thought partner)로서 AI

    Brunch Story

    사고 파트너(thought partner)로서 AI

    한때 천만원에 거래되었던 Manus, Bedrock 무료 오픈소스로 공개

    ... 더 보기

    LinkedIn

    lnkd.in

    LinkedIn

     • 

    저장 21 • 조회 1,607