본 내용은 9월 25일 진행된 Microsoft의 "Picking the Right GenAI Model for the Job" 웨비나 내용을 기반으로 작성되었습니다. MS의 Azure 서비스를 알리는 차원에서 진행되었지만, 유용한 키워드들이 있어 공유하고자 합니다~!
모델 결정 과정
보편적 모델(GPT4)부터 검토 : 보편적으로 성능이 확보되어 있는 모델을 비즈니스 프로세스에 우선 적용하여 테스트 수행. 이후 특정 업무에 맞게 모델 최적화(sLLM).
작업 난이도 : 멀티 에이전트 및 복합한 RAG 구조를 구현하려면, 많은 문맥을 고려할 수 있는 대형 모델이 필요함. 하지만 단순한 요약 및 답변 봇에는 소형 모델로도 충분함.
모델 카탈로그 활용: AI Studio에서 제공하는 모델 카드를 통해 모델 별 상세 정보 탐색. 모델의 성능, 가격, 답변 스타일, 컨텍스트 사이즈 등을 검토할 수 있음.
성능 vs 가격 트레이드오프: 모델 크기에 따른 성능과 비용 고려
플레이그라운드 테스트: 질의 테스트를 통해 원하는 결과에 맞는 모델 검토 및 선택
컨텍스트 사이즈 고려: 쿼리에 얼마나 많은 양의 텍스트를 담을 수 있는지 고려
➡️ https://ai.azure.com/explore/models (Azure 모델 카탈로그)
벤치 마크 탐색 및 평가
태스크별 벤치 마크 확인 : 논리, 수학, 코딩 등 태스크에 따른 비즈니스에 맞는 벤치마크 고려. 논문을 통해 어떤 질문과 답변을 통해 테스트 했는지 검토.
LMSYS 리더보드 활용 : 벤치마크는 논문을 통해 검증된 데이터이므로, 실제 비즈니스 환경에서 테스트 기대치와 상이할 수 있음. 따라서 Chatbot Arena에서 제공하는 리더보드를 활용. Chatbot Arena는 수많은 기여자들이 모델 간의 실제 답변을 블라인드 로 비교 및 평가한 지표.
➡️ https://ai.azure.com/explore/benchmarks (Azure 모델 벤치마크)
➡️ https://lmarena.ai/ (Chatbot Arena)
비용 사항
토큰 당 비용 : LLM 모델은 토큰 단위로 요청 비용을 청구함. 토큰 계산기를 통해 요청 텍스트의 토큰 단위를 계산 할 수 있음.
작업 별 모델 적용 : 작업 단계에 따라 상이한 모델을 적용하는 방법을 검토할 수 있음. 모델 사이즈에 따라 수배에서 수십배 가량 비용 차이가 발생함. 개발 단계와 달리 운영 단계에서는 프로세스를 구성하는 작업 수준에 따라 상이한 모델을 적용 검토.
API 토큰 가격 변동 : 모델 비용(토큰 가격)은 지속적으로 변화하고 있음. 2023년 기준, 6개월 사이에 GPT4 토큰의 비용은 6배 감소하고, 성능은 두배 증가함(GPT4 Turbo) 그러므로 비용 감소에 많은 수고를 들이기 보다 모델이 창출할 비즈니스 가치에 집중.
➡️ https://opendemo.ai/tokenizer (데이터 토큰 계산기)
기타 사항
멀티 모달의 성능 평가: 음성 및 이미지 처리 프로세스가 단일 모델로 결합되면서(GPT Omni) 대화의 자연스러운 흐름이 지켜지는지 여부가 중요해짐(대화를 끊거나, 주제 바꾸기 테스트)
LLM 파인튜닝의 필요성: 활용 빈도가 프롬프트 엔지니어링 > RAG > 파인튜닝 > 학습 순으로 구성됨. 파인 튜닝은 모델이 지원하지 않는 언어에 특화 시키기 위한 사례 정도에서 쓰임. 대부분 프롬프트 + RAG 단계에서 90% 정도 해결 가능.
애플리케이션 시스템 개선: 많은 경우 모델의 성능보다 애플리케이션을 구성하는 시스템에서 성능 차이가 발생할 수 있음. 프롬프트 수정 만으로 처리 속도가 두배 가량 개선되기도 함.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 26일 오후 11:11