Community

[통계성 대시보드 구현하기: 대용량 데이터 처리 방법] 요구사항 1) 주문/배달 데이터로부터 주문 접수율, 주문 접수시간, 조리시간 준수율 등의 통계 데이터를 제공해야 함 2) 각 지표별로 상위 몇

[통계성 대시보드 구현하기: 대용량 데이터 처리 방법] 요구사항 1) 주문/배달 데이터로부터 주문 접수율, 주문 접수시간, 조리시간 준수율 등의 통계 데이터를 제공해야 함 2) 각 지표별로 상위 몇 퍼센트인지 수치로 나타낼 수 있어야 함 3) 매일 아침 9시에 업데이트 된 통계/상대평가 데이터를 제공해야 함 구현방향 1) Airflow 스케줄러를 통해 주기적으로 외부에서 필요한 정보를 가져옴 2) 데이터 레이크에서 SparkSQL 쿼리문으로 주문 데이터를 추출 3) 주문 데이터를 팀 내 RDB로 저장 4) 주문 접수율, 주문 접수시간, 조리시간, 조리시간 준수율 등의 통계 데이터를 계산한 뒤, 다시 팀 내 RDB로 저장 문제 방대한 양의 주문 데이터를 어떻게 관리할 것인가? (내부 RDB 적재 부담, 통계 연산에 걸리는 시간 등) 해결방안 - 데이터 레이크에서 내부 RDB에 주문 데이터를 저장하는 과정에서 통계 데이터를 계산한다 (이 때 SparkSQL 사용하여 통계 연산) - 중간 통계 결과를 저장하는 hive 테이블을 두고, 최종 결과만 RDB에 저장한다

알림

알림이 없습니다