Partitioning & Bucketing, Spark에서 다른 점

먼저, 조금 더 쉬운 Partitioning을 설명하겠습니다. Partitioning은 같은 디렉터리에 데이터를 구성하는 방법입니다. 예를 들어, 2023년 5월 1일의 데이터와 2023년 5월 2일의 데이터를 다른 경로에 나눠서 저장하면 date 값이 5월 1일인 데이터를 읽을 때는 5월 1일 경로만 읽으면 됩니다. 1999년부터 모든 경로의 데이터를 읽을 필요가 없이요. 다음으로 Bucketing은 같은 '파일'에 데이터를 구성하는 방법입니다. 5월 1일 경로에 저장된 파일이 100개라고 가정합시다. 그런데 저는 user_id가 1인 레코드를 찾고 싶습니다. Bucketing이 되어있지 않다면 100개를 다 읽어야 할 겁니다. Bucketing이 되어있다면? 단 1개의 파일만 읽으면 됩니다. partitioning, bucketing 모두 데이터를 읽을 때 스캔해야하는 데이터의 양을 줄이는 최적화 방법입니다. 두가지 도구를 함께 써도 되고, 따로 써도 됩니다. 그런데 Spark의 Bucketing은 Hive의 방법과는 조금 다른데요. '스파크 버켓팅은 보는 것 만큼 단순하지 않다.' 는 글을 공유합니다. 아래 링크의 best practices for bucketing in spark sql도 좋아요. https://medium.com/analytics-vidhya/spark-bucketing-is-not-as-simple-as-it-looks-c74f105f4af0 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53

Spark Bucketing is not as simple as it looks

Medium

Spark Bucketing is not as simple as it looks

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 5월 3일 오후 1:27

 • 

저장 2조회 3,283

댓글 0

    함께 읽은 게시물

    레일즈와 카카오 문화

    ... 더 보기

    레일즈 철학과 카카오 문화

    K리그 프로그래머

    레일즈 철학과 카카오 문화

     • 

    저장 5 • 조회 2,023


    🕊️ [Medium] JPA vs Hibernate vs DataJPA

    J

    ... 더 보기

    JPA vs Hibernate vs Spring Data JPA

    Medium

    JPA vs Hibernate vs Spring Data JPA

     • 

    저장 148 • 조회 8,462


    젠슨 황은 어떻게 커리어를 쌓았나

    1. 젠슨 황은 항상 뛰어난 학생이었다. 하지만 다른 사람들과 사회적으로 상호작용하는 법을 배우기란 쉽지 않았다.

    ... 더 보기

    고난이 사람을 키운다

    태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.

    ... 더 보기

    코딩의 기본기가 머냐면

    ... 더 보기

    대량의 트래픽이 몰려올 때 나는 어떻게 해야하나? - (feat. Cac

    🌱 0. 들어가며

    ... 더 보기