Outsider

당근마켓 SRE

러시아 검색 서비스인 Yandex에서 800개의 마이크로 서비스로 운영중이던 시스템에서 요청 재시도로 인해서 발생했던 장애를 가상의 스토리로 다시 정리한 글인데 재미도 있고 네트워크 문제를 피하기 위해서 흔히 하는 요청 재시도의 복잡한 문제를 쉽게 이해할 수 있는 글입니다.

서비스를 구현하면서 반복되는 요청 실패 문제를 해결하기 위해서 재시도를 구현하는데 재시도로 인한 문제를 방지하기 위해서 지수 백오프와 지터를 구현해서 적용합니다. 지수 백오프는 요청이 실패했을 때 재시도를 똑같은 시간마다 하는게 아니라 1,2,4, 8초 같은 식으로 늘려가는 방법을 말하고 지터는 모든 클라이언트가 똑같은 시간에 재시도를 해서 서버에 과부하가 일어나지 않도록 임의의 시간을 추가해서 각 클라이언트가 다른 간격으로 재시도를 하게 하는 방법입니다.

하지만 백엔드에 큰 장애가 발생하게 되자 문제 상황을 해결하기 위해 롤백을 했음에도 재시도로 인한 요청이 너무 많아서 백엔드 시스템에 정상적으로 돌아오지 않았고 결국 트래픽을 차단해서 문제를 해결했습니다.

재시도로 인해서 시스템 복구에 더 오랜 시간이 걸리자 재시도가 왜 요청을 증폭시키는지를 조사하고 이를 해결하기 위해서 서킷브레이커와 재시도 예산을 테스트하고 비교한 결과 재시도 예산을 선택하게 됩니다. 서킷 브레이커는 일정 임계점에 이르면 요청을 차단하는 방법이고 재시도 예산은 재시도를 할 수 있는 예산을 가지고 그만큼만 재시도하는 방식입니다.

재시도를 개선해 나가면서 각 단계의 시뮬레이션 결과와 동료들과 논의한 가상 스토리가 있어서 언뜻 쉬워보이는 재시도의 복잡성을 쉽게 이해할 수 있습니다.

https://medium.com/yandex/good-retry-bad-retry-an-incident-story-648072d3cee6

Good Retry, Bad Retry: An Incident Story

Medium

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 10월 25일 오후 11:08

•

저장 14 • 조회 2,412

함께 읽은 게시물

변성윤

머신러닝 엔지니어, Engineering Manager

7월 2일

무신사의 대용량 트래픽 경험기

치

무진장 힘들었지만 무진장 성장한 개발 이야기

Medium

댓글 2 • 저장 34 • 조회 2,460

조찬우

Coupang Sr. iOS Engineer

하루 전

Swift 컴파일이 느리다면?

Swift 컴파일러의 타입 추론 파헤치기 (feat. 왜 이렇게 컴파일이 오래 걸릴까?)

iOYES

•

저장 2 • 조회 344

psmon

웹노리라이터

17시간 전

PRD분석 AI툴

저장 2 • 조회 292

석민

커리어 코치

6일 전

살아있네

댓글 1 • 저장 11 • 조회 1,205

하조은

당근 Product Engineer

하루 전

커서 AI를 슬랙과 연결하면 생기는 일

슬

저장 2 • 조회 947

K리그 프로그래머

커피한잔 개발자

5일 전

컨텍스트 스위칭 - AI 코딩 부작용

클

컨텍스트 스위칭 - AI 코딩 부작용

K리그 프로그래머

저장 6 • 조회 2,373

비슷한 게시물

골빈해커 Chief Maker

코드 로직 문서화 관련하여, 저는 예전에 높은 복잡도를 가진 서비스를 개발 할 때, 코드에 아스키 아트로 로직을 적어 넣었던 적이 종종 있습니다.

현구막 백엔드 개발자

kotlin + spring 프로젝트에서 SQS 로 메세지를 전달하기 위해 직렬화를 수행하던 도중, 필드명이 요상하게 변경(맹글링)되는 문제를 마주쳤어요.

코드잇 스프린트 코드잇 마케터

개발자 자소서가 어렵다면? 테크 블로그를 쓰세요!

백종혁 SAIGE Principal Research Engineer

[리뷰] 토스에서 말하는 "가독성 좋은 코드" 란 무엇일까?

용블리 앤츠네스트 대표

윈도우 어디서든 [제안]자동완성 가능한 툴을 만들었습니다.

황지연 카카오페이 Backend Engineer

코드 아키텍처로 문제 해결하기

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

퇴사 부검 : 네이버를 떠나며

이양일 NaverCloud 백엔드 개발자

요구사항 변화에 따른 프로젝트 구조 확장 ⛏

K리그 프로그래머 커피한잔 개발자

컨텍스트 스위칭 - AI 코딩 부작용

유용우(요우) NAVER 백엔드 개발자

"배포했으면 스펙이지"

장홍석 스페이스오디티 부대표/CPO

< 당신이 바쁜데도 성과가 없는 이유 >

석민 커리어 코치

살아있네

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의

레드버스백맨 리서처 앤 라이터

《기다림이 허락되지 않는 시대》

달레 Apollo GraphQL Software Engineer

👦🐍 7살 아이에게 파이썬을 가르칠 수 있을까요?

Arawn Park Senior Engineer & Engineering Lead

전문가의 태도를 배울 수 있는 강의

댓글 0

함께 읽은 게시물

무신사의 대용량 트래픽 경험기

Swift 컴파일이 느리다면?

PRD분석 AI툴

살아있네

커서 AI를 슬랙과 연결하면 생기는 일

컨텍스트 스위칭 - AI 코딩 부작용

비슷한 게시물

주간 인기 TOP 10

추천 프로필