AI에게 침투부의 미래를 묻다
www.youtube.com
'너 반모 알아?, 반모로 대답해', '대전 왕잉어빵의 서울행 다마스 퀵 배송비용을 계산해줘', '배우 박정민의 2024년 수상 개수를 예.측.해.봐'
답변이나 대응이 제대로 나올까 싶은 질문들을 '챗GPT'(3.5,4.0), 'BARD', '심심이'(?) 와 같은 주요 LLM 모델에 던지는 영상을 보게 되었다.
어이없어 보이는 질문들에 찰떡같이 답변을 내놓기도 하고, 각 서비스의 특성이 잘 드러나는 답변을 보면서 '이색적인' 벤치마크를 만드는 것도 중요하겠다는 생각이 들었다.
실제로 LLM의 벤치마크는 다른 AI 태스크와 달리 특정 지표만으로 나타내기 어렵다. 그래서 언어, 태스크, 수행방식 등에 따라 다양한 지표들이 만들어 지고 있다. 최근에는 전문 지식, 일종의 시험 문제를 해결하던 지표가 아닌 GAIA(a benchmark for General AI Assistants)와 같이 일상처리능력을 평가하는 벤치마크가 나왔다고 한다.
https://www.aitimes.com/news/articleView.html?idxno=155502(GAIA)
해당 연구에서는 사람이 92%, GPT-4가 15%에 불과한 성적을 보였다고 하지만... 인내심은 GPT 가 압도적이지 않을까...?
https://www.youtube.com/watch?v=pE0Ewf2D-ZE
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 10일 오전 2:48
태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.
... 더 보기제가 리드하고 있는 조직(당근마켓 커뮤니티실)에서 백엔드 엔지니어를 채용 중이에요.
커뮤니티실에는 동네 이웃들의 이야기와 정보를 공유하는 동네생활팀, 이웃 간의 취미와 관심사를 연결하는 모임팀, 그리고 아파트 단지 생활을 더 편리하고 즐겁게 만들어 줄 단지팀이 있어요. 지금 내 동네에서 일어나고 있는 일들을 더 쉽게 즐기고 공유할 방법들을 찾는 일이라면 무엇이든 도전하여 실행에 옮겨요. 만드는 사람이 불편할수록 쓰는 사람은 편하다는 믿음으로 도전적인 문제를 풀어나갈 분과 함께하고자 해요.
... 더 보기