<CPU로 Llama2 모델 사용하기>
🦙커리어리 친구들, 모두의 연구소의 뉴스레터 나온 소식을 공유합니다. 오픈AI의 창립 멤버인 안드레 카파시(Andrej Karpathy)가 라마(Llama) 2 모델의 추론(Inference)을 C언어로 구현한 프로젝트 'llama2.c'를 공개했습니다. ‘llama2.c' 프로젝트에는 모델 추론을 위한 C언어 코드뿐만 아니라, 라마 모델을 학습시키는 과정도 포함돼 있는데요. 파이썬 코드로 학습된 모델 파라미터를 이진(Binary) 파일로 저장한 다음, 파라미터 값과 입력 데이터로 결과 텍스트를 생성하는 부분을 C언어로 구현하는 것 입니다. 카파시는 이전에 진행한 '나노GPT' 프로젝트에서 아이디어를 얻어, GPT-2 대신 라마2 모델의 구조를 이용해 15M 크기(파라미터 수 1500만 개)의 작은 모델을 학습시켰어요. C언어 기반의 추론 코드를 실행한 결과 맥북 M1 CPU 환경에서 초당 110 개의 토큰이 생성됐다고 합니다. LLM과 같이 큰 모델을 사용할 경우, 추론 과정을 C언어로 구현하는 것이 좋은 접근이 될 수 있다고 저도 생각합니다. https://github.com/karpathy/llama2.c