주니어 개발자들이 읽으면 좋은 테크 아티클 모음
F-Lab : 상위 1% 개발자들의 멘토링
LLaMA3 모델이 정량적으로는 한국어 능력이 어느 정도인지 궁금해서 다양한 벤치마크에서 뽑아보았습니다. 공개되었는 KMMLU 평가셋에서는 다음과 같은 점수가 나왔습니다. CoT까지 쓴것은 아니고 Prompt를 몇가지 테스트해보고 맞춰봤습니다.
llama3-8b-instruct: 38.6
llama3-70b-instruct: 54.5
참고로 chatgpt의 모델들 점수들은...
gpt-3.5-turbo: 42.47
gpt-4: 59.95
물론 KMMLU 벤치마크에서는 한국어를 생성하는 것은 아니고, 한국어 문제에 대해 A/B/C/D 중에 답을 하는 사지선다형 문제이기 때문에 모든 한국어 능력을 대변할 수는 없겠지만! 놀랍긴하네요..
다른 모델들의 점수들을 더 비교해보시려면 KMMLU 논문(https://arxiv.org/pdf/2402.11548.pdf) 이나 HyperCLOVA X Technical Report (https://arxiv.org/pdf/2404.01954.pdf) 를 참고해주세요.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 21일 오전 4:15
OpenAI가 발표한 Codex의 핵심은 AI와 함께 진짜 팀으로 일하는 것 같은 경험을 준다는거네요.
기존의 코딩 어시스턴트는 Agent라는 이름을 붙였어도 결국은 자동완성의 확장에 그치는 것이라, 즉, 나의 뇌를 확장하는 것이라 한계가 좀 명확했는데요.
이번에 우아한형제들 기술 블로그에 "타입 안전한 API 모킹으로 프론트엔드 생산성 높이기"라는 새 글을 발행하게 되었습니다.
... 더 보기📰 인공지능만으로 운영된 스타트업의 실패
카네기 멜론 대학교의 연구자들은 “TheAgentCompany”라는 회사를 만들었다. 이 회사는 AI 모델들이 소프트웨어 엔지니어, 재무 분석가, 프로젝트 매니저로 일하는 곳.