메모리 최적화된 로컬 AI 모델을 사용해봅시다. - Gemma3 QAT
QAT는 Quantization Aware Trained의 약어이며, 양자화 하고 있다는 것을 인지시키면서 훈련하는 것을 말합니다. 원본 F16 모델과의 성능차이가 거의 없는 수준으로 3배 이상 메모리 요구치를 낮춘 모델입니다. (이미지 참고, 출처 구글 딥마인드) ollama에도 정식으로 추가되어 간편하게 사용해 볼 수 있습니다. 1B ollama run gemma3:1b-it-qat 4B ollama run gemma3:4b-it-qat 12B ollama run gemma3:12b-it-qat 27B ollama run gemma3:27b-it-qat 대부분의 로컬 모델 체험기는 성능 손실이 다소 발생하는 Q4모델을 기준으로 한 것인 만큼, 원본에 가까운 성능이라 하니 기대가 되네요.