최근 StableDiffusion 보다 더 각광받고 있는 FLUX 모델을 사용한 이미지 생성 워크플로우를
테스트하고 있습니다.
기존에는 쉼표로 구분한 프롬프트가 표준이었지만 FLUX 모델은 서술형 지시에 더 잘 따르는 것으로 알려져 있고 평균적으로 더 높은 퀄리티의 이미지를 생성 해 주기에 점점 이쪽으로 옮겨가는 추세이지요.
하지만 서술형 문장을 구상하고 자연스럽게 연결하는것은 기존 쉼표 작성 방식보다 좀 더 노력을 기울여야 합니다.
그래서 자연스럽게 서술형 문장을 생성하는 중개툴로서 ollama를 연결하여 로컬 언어 모델을 사용하는 방법이 등장했습니다.
저는 이 방식을 llama 3.1 8B 와 llama 3.2 3B 모델로 테스트 해 보았는데요. 의외로 8B 보다 더 작은 크기의 3B 모델이 더 안정적으로 원하는 형식의 프롬프트를 생성하는것을 발견하였습니다.
저의 상식과 반하는 결과였죠. 메타에서도 이 모델은 프롬프트 생성에 적합하다, 라고 밝힌 바가 있습니다만. 기대 이상이었고 소형 모델에 대한 강한 편견이 사라지는 것을 체감하게 된 순간이었습니다.
그리고 최근 오픈소스 모델 발표에서 종종 언급되는 것이 "무작정 파라메터를 늘리는 것이 아닌 데이터셋의 퀄리티가 중요하다" 인데요. 이는 연구가 계속된다면 전문화된 소형모델이 특정 분야의 답변에 한해선 충분한 성능을 낼 수 있수 있음을 의미한다 생각합니다.
이미 huggingface에 그런 의도를 갖고 만들어진 모델들이 종종 보이구요. 그렇다면 미래의 챗봇 백엔드 구조는 지금과는 사뭇 다르지 않을까? 라는 생각을 하게 됩니다.
질문을 분류하는 SLM 를 시작으로 다수의 전문적인 SLM 에이전트가 묶여있는 방식을 상상해 볼 수 있을것입니다. 기존 대형 메이저 API 들이 일부 대체되고 일부는 로컬에서도 작동시킬 수 있겠지요.
현재는 3090 x 2 혹은 4090 x 2 같은 듀얼 GPU 구성이어야 내로라하는 모델들을 맛이라도 볼 수 있습니다만, 이런 추세가 지속된다면 대 AI 시대에 잉여 자원으로 남아있는 개인 PC들에게 새로운 생명이 부여될지도 모르겠다는 생각이 듭니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 14일 오전 5:42