Community

화웨이, 대형 AI 모델을 가볍고 빠르게 만드는 기술 공개

화웨이에서 SINQ라는 고품질 양자화 기술을 공개했습니다. 새로운 LLM 모델이 발표되면, 함께 더 낮은 사양에서도 구동할 수 있도록 만든 양자화 버전이 나오곤 하죠. 이런 모델들은 당연히 원본보다 덜 똑똑한 편입니다. 그런데 이번에 화웨이가 발표한 SINQ 알고리즘은 기존보다 훨씬 빠르게 양자화를 진행하면서도 성능 손실이 적다고 주장하고 있습니다. 단일 GPU에서 Qwen3-14B를 21초, DeepSeekV2.5-236B를 5분 만에 양자화할 수 있었다고 하네요. 코드도 간단한 편이고, 이미 여러 업체들이 양자화 모델을 내놓고 있기 때문에 조만간 SINQ 버전으로 만들어진 모델들도 등장할 것으로 보입니다. https://github.com/huawei-csl/SINQ

알림

알림이 없습니다