A Survey of Causal Inference Applications at Netflix
Medium
[😈데블챌 2기 2일차, 인과추론 in Netflix]
인과 추론 분야에서 빼놓을 수 없는 영역은 바로 '추천 시스템'입니다. 이제는 일상이 되어버린 추천 시스템 중에서 특히 넷플릭스는 빼놓을 수 없는 플랫폼 입니다. 그래서 이번엔 넷플릭스 기술팀이 인과 추론을 활용한 이야기를 공유해볼까 합니다~!
저자는 넷플릭스 내부 서밋에서 소개된 4개 팀의 발표를 다루고 있습니다. 기술적인 용어가 많아 어려운 부분이 있지만, 넷플릭스라는 서비스가 어떻게 연구되어 왔는지 엿 볼 수 있습니다.
1) 현지화
넷플릭스는 다양한 형태의 현지화 전략을 시도하는 것으로 잘 알려져 있습니다. 그렇기에 각 전략의 효과성을 확인하는 일이 중요합니다. 장르와 더빙 언어에 따라 데이터를 분석하고, 교란 변수를 제어하고자 '이중 기계 학습'이라는 기법을 활용하였습니다. 이렇게 특성에 따라 더빙을 비롯한 현지화 전략의 효과성을 파악하고 있습니다.
2) 제품혁신
넷플릭스는 새로운 기능이 출시되면 접근 가능 여부에 따라 고객 그룹을 나누는, 홀드백 테스트를 시도하고 있습니다. 기능을 쓸 수 있는 그룹과 쓸 수 없는 그룹을 비교함으로써 새로운 기능의 효과를 확인하거나, 사용하지 않는 기능을 제거하여 제품 단순화 테스트를 할 수 있습니다.
3) 추천모델
넷플릭스는 다양한 딥러닝, 머신러닝 알고리즘을 활용합니다. 이러한 모델들은 교란변수를 적절하게 통제하는 것이 중요합니다.
사용자가 한국 콘텐츠를 좋아하는 것이 '오징어 게임' 시청에 어떤 영향을 미치는가?
넷플릭스가 '오징어 게임'을 추천했을 때, 사용자 시청에 미치는 효과는 무엇인가?
이 두 가지 요소의 상호작용을 어떻게 분리하여 각각의 영향을 평가할 수 있는가?
이러한 인과 추론과 머신 러닝 기법을 결합하여 Causal Ranker Framework라는 추천 프레임 워크를 구축하였다고 합니다.
4) 고객평생가
넷플릭스는 구독자가 구독을 취소하고 다시 구독을 할 확률과, 또 다시 구독과 취소를 할 확률을 연계적으로 계산하는, '마르코프 체인' 기법을 활용합니다. 회원/비회원의 증분 값을 파악하며, 이는 가격 정책에 중요한 근거가 됩니다.
내용은 다소 어려웠지만, 이론으로 배우던 기술들이 실제로 어떻게 쓰이고 있는지 알 수 있는 시간이었습니다. 특히 코로나로 인해 일부 지역의 더빙이 지연된 상황을, 오히려 더빙의 효과성을 파악하는데 활용했던 사례가 인상적이었습니다. 글로벌 플랫폼이 데이터를 자원으로 생각하는 데에는 이러한 배경들이 있지 않을까 싶습니다~! 🧐
https://netflixtechblog.com/a-survey-of-causal-inference-applications-at-netflix-b62d25175e6f
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 28일 오후 11:14