♊ 구글 Gemini, ChatGPT보다 '진짜' 똑똑할까?

지난 12월 7일, Google DeepMind는 야심작 멀티모달 모델 Gemini를 선보였습니다. 최근 Gemini 모델이 사용 가능하도록 공개되면서 관련 연구들이 속속 등장하고 있습니다.

카네기 멜론 대학과 BerriAI 연구진은 최근 구글의 Gemini Pro 모델과 OpenAI의 GPT-3.5-Turbo 모델의 성능을 비교한 연구를 공개했습니다. 다양한 벤치마크를 기반으로 비교한 그 결과는 어땠을까요?

https://arxiv.org/abs/2312.11444

Google Gemini의 성능 문제
- 결론부터 말하자면, 구글이 최근 발표한 Gemini Pro 모델이 OpenAI의 GPT-3.5-Turbo 모델에 비해 대부분의 작업에서 성능이 떨어진다는 연구 결과가 발표되었습니다.
- 연구팀은 다양한 작업에 걸쳐 Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo 및 Mixtral 8x7B를 포함한 여러 대형 언어 모델을 비교 분석했습니다. 이들은 LiteLLM 인터페이스를 통해 2023년 12월 11일부터 15일까지 다양한 프롬프트로 모델들을 테스트했습니다.
Choice Bias & Weakness in specific Areas
- Gemini Pro는 다른 모델들에 비해 특정 답변을 선택하는 경향이 높았습니다. 예를 들어, 객관식 질문에서 'D' 선택지를 과도하게 선호하는 경향을 보였는데, 이는 명령형 튜닝에 대한 부족함을 나타낼 수 있습니다.
- 또한 수학적 추론, 코드 생성, 전문 의학 등 특정 분야에서 GPT-3.5-Turbo보다 더 낮은 성능을 보였습니다. 이는 Gemini의 안전성 매커니즘 때문에 일부 질문에 답변을 거부한 것이 큰 영향을 미쳤습니다.
Strength in Language Translation
- 그나마 Gemini Pro가 좋은 성능을 보인 부분은 언어 번역 태스크입니다.
- 20개 언어 중 8개에서 GPT 모델들을 능가하는 번역 능력을 보였습니다. 그러나 약 10개 언어 쌍에서 응답을 차단하는 경향이 있어, 과도한 내용 조절 시스템을 가지고 있음을 시사합니다.
Google AI의 전망
- 이미 OpenAI가 시장을 선점한 상황에서 후발 주자인 Google이 하나의 모델로 전세를 역전하기는 어려워보입니다.
- 그나마 위안 삼을 만한 점은 이번 연구가 언어 모델 벤치마크를 중심으로 비교됐고, 아직 Gemini Pro 버전의 성능만을 검토했을 뿐, 최고 성능을 보인다고 밝힌 Gemini Ultra는 아직 베일에 쌓여 있습니다.
- Gemini Ultra는 내년에 출시될 것으로 보이며, 서비스 개선이 이뤄질 여지는 충분하다고 봅니다.

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 12월 20일 오후 12:16

조회 149

비슷한 게시물

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

♊ 구글 Gemini, ChatGPT보다 '진짜' 똑똑할까?

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필