(논문 공유) 추론하면서 엔트로피 계산해 연산량 조절하는 법
논문: https://arxiv.org/pdf/2510.11170 최근 뉴스 브리핑 서비스를 개발했습니다. 원래는 vLLM 기반이었는데, 성능과 비용을 고려해 상용 API로 전환했습니다. 요즘 AI 서비스를 개발할 때 자체 개발 모델보다는 API를 선호하는 추세라고 합니다. 하지만 vLLM 기반 프로젝트를 할 기회가 생길 경우를 대비해 vLLM 모델 추론 시 최적화하는 방법들을 살펴보고 있습니다. EAGER는 모델이 추론하는 동안 매 순간의 엔트로피(불확실성)를 계산하여, 엔트로피가 높을수록 더 많은 연산량을 사용하게 하는 방법입니다. EAGER를 사용하면 오픈소스 모델을 추론할 때: - 확신이 있는 쉬운 구간에서는 아주 빠르게 다음 단어를 선택하고 - 판단이 어려운 구간에서는 더 많은 연산량을 투입해 깊게 고민합니다. EAGER 없이 추론만 돌릴 때는 모든 단어를 만들 때 항상 동일한 연산량을 사용하게 됩니다. 예를 들어 항상 50의 연산량을 사용할 경우, 10만 필요한 쉬운 단어에 대해서도 50의 연산량을 소비해 비효율적으로 자원을 쓰는 것입니다. 하지만 EAGER를 사용하면 쉬운 구간은 빠르게 통과하고, 난이도가 높은 지점에서만 집중적으로 연산하기 때문에 추론 속도는 높이면서도 컴퓨팅 자원을 훨씬 효율적으로 사용하게 됩니다.