기존에 Gemma 3 모델이 이미 공개된 바 있습다만
이번에 발표된 모델은 기존에 널리 사용하는 양자화 방식이 아니라 QAT(Quantization Aware Training)를 도입했다고 합니다. 학습 단계부터 양자화를 고려해 훈련하는 방식으로 성능 손실이 최소화된다고 합니다.
구글 발표로는 원본 모델(bfloat16)과 거의 동일한 성능을 달성했다고 합니다.
개인 PC 환경에서 모델을 구동할 때는 일반적으로 원본 모델 대신 Q4 양자화 모델이(이미지 참조) 널리 사용됩니다. 원본보다 약 1/3 수준의 용량으로 줄어들어 상대적으로 낮은 사양의 기기에서도 실행 가능하지만 성능 손실이 있습니다.
QAT 자체는 발표된지 몇년 된 기술로 보이는데요. 추가적인 개발, 훈련 비용으로 인해 널리 쓰이지는 않았고, 극한의 최적화가 필요할 때 사용하는 방법인걸로 보입니다.
현재는 사용을 위한 별도 동의 절차가 있어서, Ollama나 LM Studio 같은 기존 플랫폼에서 바로 사용할 수 없는 모양이라 조금 기다려봐야겠습니다.
https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-gguf
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 4일 오후 1:18
외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기