<실리콘밸리 투자사가 정리한 LLM 앱을 위한 새 아키텍처 (3)>
실리콘 밸리 투자사가 정리한 LLM 앱을 위한 새 아키텍처 시리즈 마지막 글을 정리해 드립니다. 이번 마지막 시리즈에서는 프롬프트 실행 및 추론, 파인튜닝, 서빙, 호스팅에 대해 이야기를 나눕니다. 🌸 3. 프롬프트 실행 및 추론 🍾 현재 OpenAI는 언어 모델 가운데 선두주자이며, 거의 모든 개발자가 GPT-4, GPT-4-32k 모델로 LLM앱 개발을 시작함 🍾 사용하기 쉽고 다양한 도메인에 대해 사용가능하며 파인튜닝이 현실적으로 매우 어렵고 셀프 호스팅하는 데 비용이 많이 들어가 프로덕션 서비스에서 스케일 업을 할 때 반드시 수익성 고려가 필요함. 🍾 gpt-3.5-turbo 가 대중적으로 가장 많이 사용되고 있음. 그 이유는 50배 이상 저렴하고 GPT-4에 훨씬 빠르고, 빠른 응답시간이 필요하거나 무료 사용자를 위한 효율적 지원이 필요할때 선택함. (그러나 GPT-4 API가 공개되면 서서히 GPT-4로 모두 옮겨 갈 것으로 예상함) 🍾 클라우디(Claude)는 빠른 추론과 GPT 3.5 수준의 정확도, 더 많은 커스텀 옵션을 제공하며 최대 100k 컨텍스트 윈도우를 제공(그러나 컨텍스트가 길어지면 정확도는 떨어짐) 🍾 다양한 쿼리 복잡도가 있거나 무료 사용자를 저렴하게 서빙해야 하는 검색/채팅 같은 대규모 B2C 유스케이스에서는 효율적이 될 수 있음 🍾 오픈소스 모델은 현재 독점 제품들을 뒤쫓는 상황이지만, 격차가 좁혀지기 시작했다고 하나 직접 LLM을 올려보면 얼마나 OpenAI가 파인튜닝과 프롬프트 측면에서 정교한지 알수 있음. 🍾 Meta의 LLaMA 모델은 오픈소스 정확도에 대한 새로운 기준을 설정했고, 다양한 변형들이 나오게 함. 예)Alpaca, Falcon, Viccuna 🍾 LLaMA는 연구용으로만 허가를 했지만, 대체 기본 모델(Together, Mosaic, Falcon, Mistral)을 훈련하기 위해 많은 공급자들이 참여함. 🍾 Meta는 진정한 오픈소스 LLaMa 2 모델을 출시하기 위해 논의중이고, 오픈소스 LLM이 GPT-3.5와 비슷한 정확도 수준에 도달하면 Stable Diffusion Moment와 같은 것을 텍스트 에서 기대함 🍾 Replicate 같은 호스팅 회사들은 이미 개발자가 이런 모델을 더 쉽게 사용할 수 있도록 도구를 추가중. (하지만 제가 사용해 본 결과, 너무 느려서 돈 좀 더 주고 AWS나 구글 클라우드에 올리기를 추천 드림) 🍾 더 작으면서도 파인튜닝된 모델이 최첨단 모델의 정확도에 도달 가능하다는 개발자들의 믿음이 커지고 있으나 임베딩 속도를 개선해야 함. 🍾 응답시간과 비용을 개선하기 위해 LLM 캐싱도 보통 Redis로 함 🍾 신속한 프롬프트 생성, 파이프라인 튜닝, 모델 선택을 위해 LLM 출력을 로그, 추적, 평가 할수 있는 Weights & Biases, MLFlow, PromptLayer, Helicone 같은 도구도 많이 사용됨. 🍾 LLM 출력을 검증(Guardrails)하거나, 프롬프트 인젝션 감지(Rebuff) 같은 도구들도 출시중이며, 이런 운영 도구의 대부분은 자체 Python 클라이언트를 사용하여 LLM 호출을 수행하도록 권장함. 🍾 LLM의 정적인 부분(모델 이외의 모든 것)도 어딘가에 호스팅 되어야 하는 데, 가장 일반적인 솔루션은 Vercel 이나 주요 클라우드 공급자들 일반적임. 🍾 Steamship은 LLM 앱을 위한 엔드-투-엔드 호스팅을 제공하여, 오케스트레이션(LangChain), 멀티 테넌트 데이터 콘텍스트, 비동기 태스크, 벡터 저장소, 키 관리등의 기능 제공 🍾 Anyscale 과 Modal 은 개발자가 모델과 파이썬 코드를 동시에 호스팅할 수 있게 해줌 https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/?mibextid=Zxz2cZ