린스타트업, 애자일 모델, MVP의 시대는 끝났을까
린스타트업, 애자일 모델, MVP의 시대는 끝났을까
어제 OpenAI에서 GPT-4o의 업데이트 버전인 <chatgpt-4o-latest>와 <gpt-4o-2024-08-06>를 내 놓았는데요. Chatbot Arena 점수가 심하게 좋아서(첫번째 이미지) 이게 맞나? 싶어서 실제 사용기들을 좀 기다려봤습니다.
하루동안 올라온 다양한 리뷰들을 종합해보면, 실제로 성능이 많이 좋아지긴 했고, gpt-4o-2024-08-06 의 경우 실질적인 작업을 더 잘하게 되었고, chatgpt-4o-latest는 조금 ‘덜 로봇틱한’ 출력을 한다고 합니다.
OpenAI에 따르면 chatgpt-4o-latest는 ChatGPT에 사용하는 모델을 개발자나 연구자들이 평가해 볼 수 있게 열어준 것이고, 개발자들이 자기 서비스에 사용하는 것을 권장하는 모델은 gpt-4o-2024-08-06 인데요.
즉, chatgpt-4o-latest의 경우 채팅형에 적합하기 때문에 Chatbot Arena에서 더 좋은 평가를 받은 것 같습니다.
OpenAI의 설명에도 해당 모델은 학습 데이터의 추가/삭제 및 피드백 등을 기반으로 ChatGPT 사용자가 일반적으로 선호하는 행동을 하도록 만든 모델이라고 하고요. 참고로, 사용자의 선호도에 대한 평가 방식은 더 연구해서 공개 할 예정이라고 합니다.
하지만, livebench(두번째 이미지)에서는 Claude-3.5 Sonnet의 점수가 압도적으로 좋고, 개발자와 사용자들의 평가가 다양하게 엇갈리는 것을 보면, 이제 절대적은 성능은 벤치마크만으로는 우열을 크게 가리기는 어려운 것 같습니다.
즉, 이제 LLM의 성능이 어느정도 평준화(?) 되었다고 할 수 있겠는데요. (겨우 1년만에..😨) 역시나 이제부터의 관전 포인트는 자잘한(?) 성능이나 기능 업데이트 보다는 과연 다음 레벨의 AI를 먼저 내 놓을 팀, 회사가 어디가 될지가 아닌가 싶습니다. 😎🍿🥤
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 14일 오후 5:02
스타트업 업계에서는 한동안 ‘당신의 아이디어는 이미 다른 누군가도 가지고 있다’,
‘광범위하게 리서치하고 송곳처럼 개발하라’는 말이 정석처럼 받아들여졌어요. '린스타트업'이라 불리는 방법론의 일환으로요.
산호세 주립대에서 학생들 가르치다보면 가끔 면접을 앞두고 있는데 모의 면접을 해볼 수 있겠냐고 도움을 요청하는 학생들이 있다. 다들 경험이 많지 않다보니 뭔가 질문을 하면 질문을 이해하고 시간을 두고 대답을 하기 보다는 서두르는 경향이 있다. 이런 학생들에게는 항상 아래 이야기를 한다.
... 더 보기
“어? 이거 분명 할 줄 알았는데. 어떻게 했더라? 이렇게 어려웠었나?” 분명히 할 만하다고 생각해서 시작했던 일이 어느덧 시작했던 때보다 더 어렵게 느껴질 때가 있다.
... 더 보기디테일하게 일을 만들어
숫자로 말을 할 수 있어야 해요.
드라마 ‘나의 아저씨’에서 故 이선균이 아이유를 위로하는 많은 이야기를 했는데 아래 ‘인생을 힘들게 하는 외력과 그것을 버텨내는 내력’도 그중 하나다.
... 더 보기