연간 LLM 호출 비용 25% 절감, 인턴이 도전한 시맨틱 캐싱 도입기

안녕하세요! 당근 채팅팀에서 백엔드 엔지니어 인턴으로 일하고 있는 카펠이에요. 👋 이 글에서는 연간 LLM 호출 비용을 약 25%, 연간 2.1억 원가량 절감한 프로젝트를 소개해보려고 해요.


당근에서는 AI를 다양한 프로덕트에 적극적으로 활용하고 있는데요. 그중 하나가 채팅창에서 대화 흐름에 맞춰 다음 문장을 자동으로 추천해 주는 AI 메시지 추천 기능이에요. 이 기능은 사용자들의 채팅 경험을 더욱 편리하게 개선했지만, LLM 호출 비용이 과도하게 높다는 문제가 있었어요. AI를 잘 활용하면서도 비용을 효율적으로 관리하는 게 중요한 과제였던 거죠.


저는 시맨틱 캐싱(Semantic Caching)이라는 기술을 실제 프로덕션 환경에 적용해 비용을 크게 절감해 냈어요. 시맨틱 캐싱은 기존 캐싱 기법과는 달리 문장 간 의미 유사도를 고려해, 표현은 달라도 의미가 비슷한 요청에 캐싱이 동작하도록 하는 기법이에요.


이 프로젝트는 제가 인턴 생활 중에 직접 문제를 발견하고 아이디어를 제안해 주도적으로 진행했던 경험이기도 해요. 기술적으로도, 개인적으로도 큰 의미가 있었던 여정을 공유해 볼게요.


시맨틱 캐싱으로 LLM 호출 비용을 크게 절감한 과정이 궁금하다면
지금 당근 테크 블로그에서 글 전문을 읽어보세요!🥕

연간 LLM 호출 비용 25% 절감, 인턴이 도전한 시맨틱 캐싱 도입 기록

예스24

연간 LLM 호출 비용 25% 절감, 인턴이 도전한 시맨틱 캐싱 도입 기록

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 7월 3일 오전 6:24

조회 65

댓글 0

    함께 읽은 게시물

    《기다림이 허락되지 않는 시대》

    ... 더 보기

    바이브 코딩을 여러가지 카테고리에 적용해보고 있는데, 머신러닝쪽은 압도적으로 좋네요. 진짜 코드를 안 봐도 될 정도임.


    심지어 머신러닝 연구 작업 특성상 코드를 안봐도 되니까 실험하는게 겁나 재밌어짐. 미쳤음. GPU 무한대로 준다는 말에 혹한다는 것이 완전 이해가 됨.



    영화 '로비'

    

    ... 더 보기

    인프라에 관심있는 분께 추천드렸던 책들...

    최근에 인프라에 관심이 있는데 어떤 것들을 공부하면 좋을까? 어떻게 공부하면 좋을까? 질문주신 분이 있어서 이런 저런 이야기를 적다가, 시간이 되시면 이런 책도 읽어보면 좋을 것 같아요. 하고 추천했던 책들을 정리해봤어요. ---- https://www.yes24.com/Product/Goods/44376723 DevOps와 SE를 위한 리눅스 커널 이야기 - 강진우 저 리눅스 서버 운영할 때 어떤 부분들을 신경써야 하는지, 어떤 지표들을 어떻게 모니터링해야 하고, 문제상황에... 더 보기

     • 

    댓글 1 • 저장 115 • 조회 7,739