Community

"Hive에서 실시간으로 쇼핑 데이터를 조회할 수 있게 ETL 개선"

라인 쇼핑에서 수 억개의 상품 데이터를 조회 하는 ETL + 실시간 업데이트까지 데이터 파이프라인을 개선 한 글이 올라왔습니다. 해당 작업은 본문에서 총 3가지의 개선 작업으로 이루어졌습니다. 1차 개선 Hbase snapshot 2차 개선 Kafka 3차 개선 Kafka + 데이터 정제 추가 개선 사항 두 가지도 명시하고 있습니다. 수 억건에 이르는 데이터가 흐르는 파이프라인에서 실시간 업데이트와 ETL을 동시 처리 하는 것은 상당히 부하가 큰 작업입니다. 그리고, 전체 부하가 한 곳에 집중 되거나 한다면, 당연히 다른 애플리케이션에서도 부하 전파가 되기 때문에, 지속적으로 큰 이슈가 발생할 수 있는 큰 포인트입니다. 그런데, 라인 쇼핑에서는 해당 개선 작업을 통해서 대량의 데이터 ETL과 실시간 업데이트를 동시에 잡는 개선 사항을 적용하고 해당 경험기를 아래 라인엔지니어링 블로그에서 소개 하고 있습니다. 혹시, 다른 분들도 관심이 있으시다면, 정독해보시면 좋을 것 같습니다. 🙇🏻‍♂️

알림

알림이 없습니다