소형모델(SLM)은 쓸만할까요? - llama 3.2 3B 사용기

최근 StableDiffusion 보다 더 각광받고 있는 FLUX 모델을 사용한 이미지 생성 워크플로우를

테스트하고 있습니다.


기존에는 쉼표로 구분한 프롬프트가 표준이었지만 FLUX 모델은 서술형 지시에 더 잘 따르는 것으로 알려져 있고 평균적으로 더 높은 퀄리티의 이미지를 생성 해 주기에 점점 이쪽으로 옮겨가는 추세이지요.


하지만 서술형 문장을 구상하고 자연스럽게 연결하는것은 기존 쉼표 작성 방식보다 좀 더 노력을 기울여야 합니다.


그래서 자연스럽게 서술형 문장을 생성하는 중개툴로서 ollama를 연결하여 로컬 언어 모델을 사용하는 방법이 등장했습니다.


저는 이 방식을 llama 3.1 8B 와 llama 3.2 3B 모델로 테스트 해 보았는데요. 의외로 8B 보다 더 작은 크기의 3B 모델이 더 안정적으로 원하는 형식의 프롬프트를 생성하는것을 발견하였습니다.


저의 상식과 반하는 결과였죠. 메타에서도 이 모델은 프롬프트 생성에 적합하다, 라고 밝힌 바가 있습니다만. 기대 이상이었고 소형 모델에 대한 강한 편견이 사라지는 것을 체감하게 된 순간이었습니다.


그리고 최근 오픈소스 모델 발표에서 종종 언급되는 것이 "무작정 파라메터를 늘리는 것이 아닌 데이터셋의 퀄리티가 중요하다" 인데요. 이는 연구가 계속된다면 전문화된 소형모델이 특정 분야의 답변에 한해선 충분한 성능을 낼 수 있수 있음을 의미한다 생각합니다.


이미 huggingface에 그런 의도를 갖고 만들어진 모델들이 종종 보이구요. 그렇다면 미래의 챗봇 백엔드 구조는 지금과는 사뭇 다르지 않을까? 라는 생각을 하게 됩니다.


질문을 분류하는 SLM 를 시작으로 다수의 전문적인 SLM 에이전트가 묶여있는 방식을 상상해 볼 수 있을것입니다. 기존 대형 메이저 API 들이 일부 대체되고 일부는 로컬에서도 작동시킬 수 있겠지요.


현재는 3090 x 2 혹은 4090 x 2 같은 듀얼 GPU 구성이어야 내로라하는 모델들을 맛이라도 볼 수 있습니다만, 이런 추세가 지속된다면 대 AI 시대에 잉여 자원으로 남아있는 개인 PC들에게 새로운 생명이 부여될지도 모르겠다는 생각이 듭니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 14일 오전 5:42

댓글 0

    함께 읽은 게시물

    데이터 드리븐 리포트 (1)

    책 [데이터 드리븐 리포트]를 읽고 757

    ... 더 보기

    < 애플을 구한 건 스티브 잡스의 '두 번째 버전'이었다 >

    1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.

    ... 더 보기

    IT 회사의 업무에서, 지금까지는 디자이너와 특히 개발자가 병목이었는데, 대 AI 시대에는 기획자가 병목이 될 수도 있겠다. 조금이라도 규모가 있는 기업에서의 가장 큰 병목은 보통 의사결정자라는 것을 생각해보면 그렇다.


    즉, 실무보다 의사결정을 AI에게 맡기는 것이 병목을 해소할 수 있는 가장 확실한 방법이며, 그러므로 부장님과 사장님을 AI로 대체하는 것이야말로 인류의 번영을 위한 가장 빠른 지름길이다. (아님. 아니 맞나?!)

     • 

    저장 1 • 조회 2,128


    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기

    데이터 분석가의 뇌구조가 궁금하다면?

    ... 더 보기

    AI(LLM) 애플리케이션의 발전 속도가 AI 지능(능력)의 발전 속도를 따라가지 못하고 있는 상태가 되었다. 즉, 이제 AI가 부족한 것이 문제가 아니라, AI의 능력을 100% 활용하지 못하고 있는 것이 문제인 상태가 되었다는 이야기.