♊ 구글 Gemini, ChatGPT보다 '진짜' 똑똑할까?

지난 12월 7일, Google DeepMind는 야심작 멀티모달 모델 Gemini를 선보였습니다. 최근 Gemini 모델이 사용 가능하도록 공개되면서 관련 연구들이 속속 등장하고 있습니다.


카네기 멜론 대학과 BerriAI 연구진은 최근 구글의 Gemini Pro 모델과 OpenAI의 GPT-3.5-Turbo 모델의 성능을 비교한 연구를 공개했습니다. 다양한 벤치마크를 기반으로 비교한 그 결과는 어땠을까요?


<An In-depth Look at Gemini's Language Abilities>

https://arxiv.org/abs/2312.11444


  1. Google Gemini의 성능 문제

    • 결론부터 말하자면, 구글이 최근 발표한 Gemini Pro 모델이 OpenAI의 GPT-3.5-Turbo 모델에 비해 대부분의 작업에서 성능이 떨어진다는 연구 결과가 발표되었습니다.


    • 연구팀은 다양한 작업에 걸쳐 Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo 및 Mixtral 8x7B를 포함한 여러 대형 언어 모델을 비교 분석했습니다. 이들은 LiteLLM 인터페이스를 통해 2023년 12월 11일부터 15일까지 다양한 프롬프트로 모델들을 테스트했습니다.


  2. Choice Bias & Weakness in specific Areas

    • Gemini Pro는 다른 모델들에 비해 특정 답변을 선택하는 경향이 높았습니다. 예를 들어, 객관식 질문에서 'D' 선택지를 과도하게 선호하는 경향을 보였는데, 이는 명령형 튜닝에 대한 부족함을 나타낼 수 있습니다.


    • 또한 수학적 추론, 코드 생성, 전문 의학 등 특정 분야에서 GPT-3.5-Turbo보다 더 낮은 성능을 보였습니다. 이는 Gemini의 안전성 매커니즘 때문에 일부 질문에 답변을 거부한 것이 큰 영향을 미쳤습니다.


  3. Strength in Language Translation

    • 그나마 Gemini Pro가 좋은 성능을 보인 부분은 언어 번역 태스크입니다.


    • 20개 언어 중 8개에서 GPT 모델들을 능가하는 번역 능력을 보였습니다. 그러나 약 10개 언어 쌍에서 응답을 차단하는 경향이 있어, 과도한 내용 조절 시스템을 가지고 있음을 시사합니다.


  4. Google AI의 전망

    • 이미 OpenAI가 시장을 선점한 상황에서 후발 주자인 Google이 하나의 모델로 전세를 역전하기는 어려워보입니다.


    • 그나마 위안 삼을 만한 점은 이번 연구가 언어 모델 벤치마크를 중심으로 비교됐고, 아직 Gemini Pro 버전의 성능만을 검토했을 뿐, 최고 성능을 보인다고 밝힌 Gemini Ultra는 아직 베일에 쌓여 있습니다.


    • Gemini Ultra는 내년에 출시될 것으로 보이며, 서비스 개선이 이뤄질 여지는 충분하다고 봅니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 12월 20일 오후 12:16

조회 145

댓글 0

    함께 읽은 게시물

    PM의 '사고 파트너(thought partner)'로서 AI

    ... 더 보기

    사고 파트너(thought partner)로서 AI

    Brunch Story

    사고 파트너(thought partner)로서 AI

    한때 천만원에 거래되었던 Manus, Bedrock 무료 오픈소스로 공개

    ... 더 보기

    LinkedIn

    lnkd.in

    LinkedIn

     • 

    저장 20 • 조회 1,597