OpenAI가 어제 차세대 모델인 Strawberry 🍓 를 발표 할 것이다라고 설왕설래 했었는데요. 무언가 발표를 하긴 했는데 그것은 SWE-bench Verified 라는 성능 평가셋이었습니다.


SWE-bench Verified는 기존의 SWE-bench, 소프트웨어 개발 관련한 문제를 푸는 성능 평가셋에서 불가능한 것이나 무의미한 문제를 제외한 평가셋입니다.


그리고, 차세대 시스템은 소프트웨어를 직접 개발하고 다른 소프트웨어를 사용하는 방식으로 사용자의 목적을 달성해주는 것으로 보고 있고, 많은 주요 LLM 회사들이 최근에 성능을 높이려고 하는 부분이 이 부분입니다.


그렇다면, 지금 이 데이터셋을 발표한 것은 과연 어떤 의미가 있는 것일까요? 아니면 그냥 할거 하는 것일까요? 만일 어떤 의미가 있는거라면, 소프트웨어 사용과 개발 부분에 굉장한 진전이 있는 모델과 시스템을 발표할거라는 빌드업일까요?


아무튼, OpenAI가 차세대 AI 모델을 내 놓은지가 꽤 되었고,(그래봐야 GPT-4가 나온지 아직 1년 반도 안됐지만요 😨) GPT-4o가 이전에 GPT-3 -> GPT-3.5 -> GPT-4 로 발전하는 과정에서 GPT-3.5와 같은 포지션으로 보이는데요. 그렇다면 이제 슬슬 발표할 때가 돤 것 같은데, 과연 언제쯤 차세대 버전을 발표할지 궁금하기만 할 따름입니다. 😎🍿🥤

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 14일 오전 11:57

조회 2,041

댓글 0

    함께 읽은 게시물

    가장 훌륭한 경비절감 방법은 ‘몰입’이다. 가장 훌륭한 생산성 향상 방법도 ‘몰입’이다. 이는 많은 경영학자들이 연구를 통해 증명한 사실이다.

    ... 더 보기

    [백진기 칼럼]그래 한번 미쳐보자?(110편)

    메디칼타임즈

    [백진기 칼럼]그래 한번 미쳐보자?(110편)

    박람회

    

    ... 더 보기

    오픈 소스 라이선스 가이드

    ... 더 보기

    오픈 소스 라이선스 가이드

    www.daleseo.com

    오픈 소스 라이선스 가이드

     • 

    저장 10 • 조회 2,180



    사이드 프로젝트 34개를 만들고 느낀점 10가지

    1️⃣ 아이디어의 가치는 실행했을 때 비로소 생긴다.

    ... 더 보기

     • 

    저장 123 • 조회 4,278


    유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.

    ... 더 보기

    재능보다 중요한 세가지 능력

    n.news.naver.com

    재능보다 중요한 세가지 능력