Karpenter 트러블슈팅 — 비용과 안정성 두 마리 토끼 잡기

안녕하세요, 저는 당근페이 인프라팀에서 Site Reliability Engineer로 일하고 있는 Yany라고 해요. 저희 팀은 당근페이의 인프라를 안정적으로 관리해요. 개발자들의 프로덕트 개발 속도를 향상하고, 동시에 비용도 최적화하죠.


저희는 클러스터 오토스케일링 없이 ASG(AWS EC2 AutoScaling Group)로, 그리고 HorizontalPodAutoscaler 없이 클러스터를 관리하고 있었어요. 여기에는 몇 가지 문제가 있었어요:


  • 스케일 아웃 과정에서 네트워크에 여러 병목 지점이 생겼어요.

  • 클러스터 업데이트를 진행하면서 ASG마다 AMI를 업데이트해야 했고, 오토스케일링이 원활하지 못했어요.

  • 컴플라이언스 이슈로 인해 분리된 노드, 서브넷에서 동작해야 하는 워크로드가 증가하면서 ASG가 늘어나 관리 포인트가 증가하고 있었어요.

  • 새벽 시간대에 트래픽이 현저히 적은 것에 비해 리소스를 너무 많이 사용하고 있었어요.


당근페이의 거래량과 유저 수가 급격히 증가하면서, 기존의 ASG 기반 인프라 운영 방식으로는 한계가 명확해졌어요. 이에 따라 더 유연하고 자동화된 클러스터 스케일링이 필요했고, 그 해답으로 Karpenter를 도입하게 되었어요.


그 여정은 저희가 생각한 것만큼 마냥 쉽지만은 않았는데요. 이번 글에서는 그 트러블슈팅 과정을 구체적으로 소개해드리려고 해요. Karpenter 도입을 고민 중이시거나 더 효율적으로 사용할 방법을 찾고 계신다면, 이 글이 큰 도움이 되길 바라요.


ReBAC 방식으로 코드의 복잡성을 효과적으로 개선한 방법이 궁금하다면
지금 당근 테크 블로그에서 글 전문을 읽어보세요!🥕

Karpenter 트러블슈팅 — 비용과 안정성 두마리 토끼 잡기

bit.ly

Karpenter 트러블슈팅 — 비용과 안정성 두마리 토끼 잡기

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 3월 27일 오전 9:28

댓글 0

    함께 읽은 게시물

    AI로 인해 영어는 이제 진짜 말하기만이 답 입니다. 그리고 말만 할 줄 알면 기회가 정말 크게 넓어질거구요.


    이제는 모두가 체감하고 있듯이 앞으로 영어로 읽기 쓰기는 큰 의미가 없어지겠지만, 말하기는 더욱 중요해질 것이거든요.


    ... 더 보기

    누구나 쉽게 이해할 수 있는 MCP 가이드

    ... 더 보기

     • 

    저장 24 • 조회 1,536


    📰 대학생이 40년만에 해시테이블의 성능 향상을 이뤄냈다고

    ... 더 보기

    Optimal Bounds for Open Addressing Without Reordering

    arXiv.org

    Optimal Bounds for Open Addressing Without Reordering

     • 

    저장 11 • 조회 1,454


    🚀 구글의 AI 승부수? Gemini 2.5 Pro 전면 무료화!

    h

    ... 더 보기

    ‎Gemini - chat to supercharge your ideas

    Gemini

    ‎Gemini - chat to supercharge your ideas

     • 

    저장 10 • 조회 1,935


    🌱 2025 팀네이버 신입 공채 오픈

    -

    ... 더 보기

    2025 팀네이버 신입 공채

    recruit.navercorp.com

    2025 팀네이버 신입 공채

     • 

    저장 11 • 조회 2,713