아자르에서 AI 추천 모델의 타겟 지표를 설정하는 방법 (아하모먼트)
* 하이퍼커넥트의 기술 블로그에 글이 올라왔는데 인상적이라 공유해보아요 * 너무 좋은 글이고 아래 내용은 글의 일부만 담겨 있으니 원문을 꼭 보시길 추천드려요 * Precision-Recall을 사용한 방법도 인상적이였어요 --- * AI로 리텐션을 올릴 수 있을까? => 1차 지표가 아니라 어렵긴 함. 모델링이 어렵기도 함 * 리텐션을 최적화하기 위해 잔류 여부에 영향을 미치며 최적화가 쉬운 1차 지표를 식별하고 최적화하며 간접적으로 리텐션을 개선해야 함 * 리텐션에 기여하는 1차 지표 * 신규 사용자를 먼저 진행. 신규 사용자가 처음으로 서비스의 가치를 느끼게 하는 핵심 경험을 아하 모먼트로 정의하고 찾아봄 * 가입 후 X일 이내에 Y 행동을 Z회 수행하는 것 * X=1일, 24시간 이내의 행동에 초점을 맞춤 * 이 결정은 데이터 분석을 통해 D1 리텐션이 개선되면 그 후 Dn 리텐션이 향상되라는 가정을 하고 진행함 * 아하 모먼트 후보군을 파악하기 위해 이진 분류기의 성능을 평가할 때 사용하는 Precision-Recall 커브를 도출하는 아이디어를 차용함. 여러 분류기의 성능을 비교하는 목적으로 사용 * 아하 모멘트를 신규 사용자의 행동으로부터 잔류 여부를 예측하는 분류기라 생각하고, 조건을 바꾸며 성능 비교 * (1) 아하 모멘트를 경험한 사용자 중 얼마나 많은 비율이 잔류했는지 (2) 잔류한 사용자 중 얼마나 많은 비율이 아하 모멘트를 경험했는지를 파악함 위 작업은 1차 지표와 리텐션 간의 상관관계를 확인할 수 있지만, 인과 증거는 되지 않음 * 좋은 추천을 받지 못해 추천 요청을 많이 하게 되는 사용자나 악성 사용자를 만난 사용자여도 리텐션이 높게 관측되는 상황이 발생하는데, 서비스 내에 활발하게 활동하는 정도와 리텐션의 두 요인에 모두 영향을 주는 교란 변수(Confounder)가 존재하기 때문 * A, B 모두에 영향을 미치는 변수 C를 교란 변수라 함 * 교란 변수를 최대한 통제한 후 데이터 분석 * 인과 관계를 가진 1차 지표를 어떻게 찾을까? * 하나의 시계열이 다른 시계열을 예측할 수 있는지 여부로 인과 관계를 짐작하는 Granger causality의 아이디어를 차용해 시간의 흐름에 따라 사용자 비율과 리텐션 추세를 시계열로 나타내 비교하기로 함 * 두 추세가 서로 다르면 인과 관계를 가질 가능성이 낮다고 판단해 후보에서 제외함 * 여기서 발견된 후보를 선정하고 실험을 위한 가설 세운 후, 여기에 맞는 AI 기반 추천 모델의 목적 함수 정의 -> AB Test https://hyperconnect.github.io/2024/04/26/azar-aha-moment.html