- YouTube
www.youtube.com
이에 화답이라도 하듯, MS에서 더 고도화 된 프롬프트로 Gemini 의 성능을 넘겼다고 발표하였습니다. (https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/)
GPT-4와 프롬프팅만으로, 의학 정보로 파인튜닝한 구글의 Med-PaLM 보다 더 높은 성능을 내었던 Medprompt를 이용하였습니다.
OpenAI는 가만히 있는데 MS에서 나서서 반격해 주는 상황도 재미납니다만 😁 앞으로 모델의 성능 평가를 위해서는 Zero-shot CoT 정도만 사용하도록 암묵적인 룰이라도 생겨야하지 않을까 싶네요.
그런 관점에서, 어느 팀이 먼저 Zero-shot CoT로 MMLU 90점을 넘기게 될 지가 내년 2024년의 가장 흥미진진한 관전 포인트가 되지 않을까 싶습니다. 😎🍿🥤
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 12월 13일 오후 3:09
나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.
소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.
앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.
내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.