현 AI판에 해자가 없다는 말이 돌았다. 구글도, OpenAI도 마찬가지라고. 메타가 쏘아올린 작은 공 LLaMa에서 시작된 오픈소스 진영(오픈AI 아님 주의)의 아래로부터의 혁명이 그만큼 뜨거웠다. 국내 기업 중 한 곳은 이 오픈소스 모델을 튜닝하여 ChatGPT(GPT-4는 여전히 넘사벽)를 이겨보는 기염을 토하기도 했다.
LLM으로 제대로 비즈니스를 도모하려면 3.5가지가 필요해 보인다. 여기서 '제대로'의 의미는 비즈니스 버티컬리 어느 정도의 종속성을 배제하고 본인만의 모델을 기반으로 서비스를 도모한다는 관점이다. 비즈니스 스콥에 따라 개수는 더 적어질 수도 많아질 수도 있다. 개인적으로 생각하는 3.5가지는 '초거대모델, 데이터, 사람, 컴퓨팅'이다. 하나씩 이야기 해보자.
[초거대모델]
초거대모델들이 per usage 개념으로 LLM as a service를 병행하고 있다. 그 와중에 오픈소스 진영에서 공개한 모델들은 서버비만 제외하면 사실상 공짜나 다름없다. 튜닝은 필요하겠지만, 과거처럼 바닥에서 시작할 필요는 없어졌다. 그런 관점에서 0.5개다. 물론 자체 모델을 갖고 있다는게 의미가 없다는 말은 아니다. 모델을 구워온 노하우와 이력, 리소스 등의 레거시는 향후 모델 발전에도 중요한 경쟁력이라 할 수 있다. 기존에 모델을 구워온 선두주자들을 제외하면 이를 내재화해서 Foundation model로서의 경쟁판에 들어갈 엄두도 나지 않을 것이다. 이들은 모델을 클라우드와 엮어 B2B 모델을 만들 수 있는 무기를 하나 더 들고 있는 셈이다.
[데이터]
모델이 있다면 그 다음은 데이터이다. 파인튜닝이든, 그라운딩이든 프롬프팅이든 본인들이 지향하는 바에 맞게 비즈니스를 만들어가려면 해당 영역에 대한 도메인 데이터가 필요하다. 자체 도메인 데이터가 필수적인 것은 아니다. 지향하는 비즈니스 모델에 따라서는 별도의 도메인 셋없이 기존 모델을 적절히 튜닝만 해도 서비스를 만들어갈 수 있다. 이를테면, 소위 'Plugin'이라 하는 중개 비즈니스가 여기에 해당할 수 있다. 물론 중개를 하려면 외부 서비스를 엮어올 플랫폼 플레이어로서의 역량이 필요할 것이다.
'언어'도 중요하다. 오픈소스로 나오는 많은 모델들이 대부분 영어를 베이스로 하고 있다. 국내에서 한글 튜닝하여 오픈하는 훌륭한 흐름들도 있으나, 한글 데이터에 대한 퍼포먼스는 시중에서 흔히 언급되는 평가되는 기준과 완전히 별개다. 한국에서의 비즈니스를 고려한다면, 한글 튜닝에서부터 0단계 시작임을 잊지 말아야 한다.
[사람]
모든 비즈니스에 통용적으로 있는 전략/기획/디자인/개발 등을 제외하더라도, LLM에 특화하여 모델을 튜닝하고 학습, 그라운딩, 프롬프팅할 사람이 필요하다. 비즈니스 목적에 따라 필요로 하는 역량도 다르다. 초거대모델을 키워 B2B에서 정면승부를 볼 양이라면 LLM 엔지니어가 필요하겠지만, 엔드 서비스로 갈수록 필요로 하는 개발 역량이 달라질 수 있다. 생성형 AI가 개발 역량을 대체간다고는 하지만, 아직은 한땀한땀 비즈니스 가이들의 미묘하고 가끔은 갑갑하기까지한 감수성을 컴퓨팅과 잘 연계해줄 브로커로서 개발자의 역량은 유효하고, 시장에 많이 부족하다.
[컴퓨팅]
어쩌면 가장 핵심이 될 수 있는 영역이다. 위 모든 것들이 갖춰졌어도 이를 돌릴 GPU가 있어야 다음 스텝을 밟을 수 있다. 개인적으로는 이 부분이 가장 큰 서비스 시작의 해자가 될 수 있다고 본다. 시장 내 GPU 수급이 턱없이 부족한 것은 잘 알려진 사실이다. 엔비디아 주가가 지난 1년간 숨도 안 쉬고 올랐던 것은 이러한 배경이다. 실제 올초에 GPU를 구매했던 지인 중 한 명은 중고로 재판매해도 처음 샀던 가격의 몇십퍼센트는 훨씬 웃도는 가격에 재판매 할 수 있다고 전하기도 했다. 컴퓨팅이 많고 좋아야 시간을 모델을 굽는데 드는 시간을 줄일 수 있다. 그만큼 짧은 시간에 많은 테스트를 해보며 가능성을 높여나갈 수 있다.
비즈니스 성장 관점에서 가트너 hype cycle로 보자면, 지난 몇 개월 숨도 못쉬게 빠르게 변곡점을 지나온 것 같다. 우후죽순 서비스들이 나오며 기술 영역이 잠잠해진듯 보이지만, 물밑으로는 다시 바닥을 다져가고 있다고 생각한다. 구글의 Gemini든, OpenAI의 차세대 GPT든, 국내업체든, 오픈소스 진영이든 AGI를 향한 행보들이 기대된다. 그 물결의 가운데서 바쁘지만 이런 저런 공부들을 조금씩 해나가고 몸으로 느끼는 중이다. 여유가 좀 더 생기면 연초에 그랬듯 작은 수준으로 sLLM 굽는 시도도 해보고, 가볍게 구현만 해뒀던 Langchain도 다시 한 번 만져봐야겠다.
관련해서 자유로운 의견 공유는 언제든 환영입니다.
#초거대AI #LLaMA #OpenAI #ChatGPT #GenerativeAI #Gemini