Modern Data Stack의 문제
많은 회사들이 데이터를 중요하게 생각하게 되었지만 데이터를 보는 것은 여전히 어렵고, 데이터로 비즈니스 문제를 푸는 것은 더더욱 어렵습니다. 데이터가 비즈니스 임팩트까지 이어지지 않는 경우가 많다면 한번 이 글을 읽어보는 것을 추천합니다. 👉 결국, 데이터는 실존하는 비즈니스 문제를 해결하기 위해 보는 것이고 무엇보다도 이 부분에 집중해야 합니다. --- Modern Data Stack은 지금까지 나날이 발전했지만 주로 엔지니어링적으로 비용이나 퍼포먼스 개선을 하는 것에 많은 집중을 했고, 비즈니스 문제를 잘 푸는 것은 오히려 어렵게 만들었다고 글에서 얘기합니다. Modern Data Stack으로 인해... 1. 데이터가 여러 소스로부터 오기 때문에, 데이터의 컨텍스트를 이해하는건 어려워졌습니다. 2. 같은 데이터임에도 다른 이름으로 테이블에서 사용되고 유지 보수되지도 않습니다. 3. 데이터 testing 잘 안되고, 디버깅은 어렵습니다. 4. 많은 팀들은 중요한 데이터의 source of truth를 이해하는데 어려움을 겪고, 자신들만의 ad-hoc 문제들을 풀어줄 테이블들을 만들어서 데이터 부채를 만듭니다. 5. 데이터 팀은 ML 모델을 위한 feature set, 지표, 실험을 하는 것에 많은 시간을 사용합니다. 6. 중요한 dataset들이 자주 망가지고 오너십이 부재합니다. 데이터 생산하는 주체와 데이터를 소비하는 주체 사이에 있는 병목을 해결 해야 실제로 비즈니스 문제를 해결하는데 더 집중 할 수 있을 것이라고 합니다. https://dataproducthinking.substack.com/p/the-problems-in-the-modern-data-stack