김문수

토스 데이터 엔지니어 | ex-뱅크샐러드

Partitioning & Bucketing, Spark에서 다른 점

먼저, 조금 더 쉬운 Partitioning을 설명하겠습니다. Partitioning은 같은 디렉터리에 데이터를 구성하는 방법입니다. 예를 들어, 2023년 5월 1일의 데이터와 2023년 5월 2일의 데이터를 다른 경로에 나눠서 저장하면 date 값이 5월 1일인 데이터를 읽을 때는 5월 1일 경로만 읽으면 됩니다. 1999년부터 모든 경로의 데이터를 읽을 필요가 없이요. 다음으로 Bucketing은 같은 '파일'에 데이터를 구성하는 방법입니다. 5월 1일 경로에 저장된 파일이 100개라고 가정합시다. 그런데 저는 user_id가 1인 레코드를 찾고 싶습니다. Bucketing이 되어있지 않다면 100개를 다 읽어야 할 겁니다. Bucketing이 되어있다면? 단 1개의 파일만 읽으면 됩니다. partitioning, bucketing 모두 데이터를 읽을 때 스캔해야하는 데이터의 양을 줄이는 최적화 방법입니다. 두가지 도구를 함께 써도 되고, 따로 써도 됩니다. 그런데 Spark의 Bucketing은 Hive의 방법과는 조금 다른데요. '스파크 버켓팅은 보는 것 만큼 단순하지 않다.' 는 글을 공유합니다. 아래 링크의 best practices for bucketing in spark sql도 좋아요. https://medium.com/analytics-vidhya/spark-bucketing-is-not-as-simple-as-it-looks-c74f105f4af0 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53

Spark Bucketing is not as simple as it looks

Medium

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 5월 3일 오후 1:27

•

저장 2 • 조회 3,286

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

7월 31일

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

•

댓글 1 • 저장 20 • 조회 1,215

달레

Apollo GraphQL Software Engineer

14시간 전

🍜 짜파게티가 왜 거기서 나와?

아

저장 1 • 조회 706

박승규

카카오계열사에서 이것저것 만드는 개발자

3일 전

책이 출판되기 전 마지막 교정을 하고 있는데...

요즘 AI 에이전트 개발, LLM RAG ADK MCP LangChain A2A LangGraph | 박승규 - 교보문고

product.kyobobook.co.kr

저장 3 • 조회 1,653

Arawn Park

Senior Engineer & Engineering Lead

2일 전

넷플릭스는 왜 WebFlux를 사용하지 않을까?

십

넷플릭스는 왜 WebFlux를 사용하지 않을까?

kr.linkedin.com

저장 10 • 조회 1,003

골빈해커

Chief Maker

3일 전

GPT-5가 출시되면서 Function Calling에 Free-Form Function Calling과 Context-Free Grammar (CFG)를 지원하는데, 이게 숨은 보석이다.

Free-Form은 결과를 JSON이 아니라 SQL, Python script 등의 코드등을 결과로 받거나 XML, CSV 같은 형태로도 받을 수 있다. 다만 plain-text로 주는 형태라서 주의가 필요하다. 이건 예전에도 프롬프트 트릭으로 쓰곤했던거라 그냥 맘이 좀 편해졌다(?)정도.

저장 3 • 조회 1,331

김병호

삼성 SDS

하루 전

건강관리에 비유한 프로젝트 위험관리

개인의 건강관리와 프로젝트의 위험관리는 유사한 점이 많다.

저장 1 • 조회 215

비슷한 게시물

이명진 한국레드햇 솔루션 아키텍트

Python의 데이터베이스 연동방법(SQL,ORM,쿼리 빌더) 비교

데이터리안 Data Analyst

실전 데이터 분석을 위한 SQL 치트 시트, 무료로 받아보세요

김도진 당근마켓 Software Engineer

⭐️ BigQuery JSON 관련 새로운 SQL function들 출시

Interrupt backend engineer

NoSQL과 SQL, 근데 이제 CAP를 곁들인

조서희 컬리 백엔드 개발자

🕊️ SQL 모범 사례

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

판다스 101 튜토리얼 3

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

Partitioning & Bucketing, Spark에서 다른 점

댓글 0

함께 읽은 게시물

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

🍜 짜파게티가 왜 거기서 나와?

넷플릭스는 왜 WebFlux를 사용하지 않을까?

건강관리에 비유한 프로젝트 위험관리

비슷한 게시물

주간 인기 TOP 10

추천 프로필