Spark optimizer를 더 똑똑하게, AQE

Spark 사용하면서 ‘돌아만 가면 된다’를 넘어서 ‘효율적으로 돌아가야한다‘의 단계가 되면 이제 여러 옵션을 만져보게 되는데요. 여러가지 옵션 중에 필수적인 옵션 중 하나인 aqe에 대해서 실험하고 정리해준 글을 공유합니다. > AQE 최적화는 이름 그대로 shuffle이 끝난 다음 partition을 coalesce(병합)를 해주는 기능입니다. 너무 많은 partition은 많은 task가 필요하거나 I/O를 많이 유발할 수 있기 때문에 적절한 수가 필요한데, AQE 기능이 적절한 partition의 수를 정해 줍니다. > AQE는 런타임 시 발생하는 다양한 통계치를 수집해 성능 개선을 가능하게 합니다.

AQE: Coalescing Post Shuffle Partitions

tech.kakao.com

AQE: Coalescing Post Shuffle Partitions

더 많은 콘텐츠를 보고 싶다면?

지금 간편 가입하고 다음 내용을 확인해 보세요!

또는

이미 회원이신가요?

2023년 3월 16일 오전 1:16