인과추론을 위한 치트시트

나를 위해 저장. 주요 통계개념은 따로 공부해야겠어요. 준실험 예시로 나왔던 펜실베니아 사례에서 결국 결과의 해석에 대한 논쟁이 크게 일었다고하니, 실험보다 중요한 것은 설득과 공감이 아닐까 싶네요. 단계 1 <과학시간에 배운 그 것> 초등학교나 중학교에서 배웠을만한 개념이다. '변수를 하나만' 사용해서 통제군과 대조군을 비교하는 방식 예) 빛이 없으면 식물이 자라지 않는다. 빛이 식물의 성장에 대한 영향을 측정하기 위해 우리는 한 항아리는 창문 옆에 하나는 옷장에 두었다. 2주 후, 창문 옆 항아리에서는 새싹이 잘 자란 반면 옷장의 항아리에서는 거의 자라지 않았다. 현실에서는 '빛' 말고도 다른 변수(옷장의 습도가 다르다던가)가 영향을 미칠 수 있어서 어려운 실험. 단계 2 <A.B 테스트!> 단순히 A/B를 비교하는 것이 아니다. '통계적 보정 및 설계가 잘 이뤄져야한다.' 큰 수의 법칙, 극한중심정리, 베이지안 추론 같은 기초적인 통계 이론이 이 실험이 잘 동작할 거라는 것을 보장해주고 수집한 데이터로부터 추정치나 정확도를 추론하는데 필요하다. 이 방식은 구글,아마존,마이크로소프트에 조단위의 돈을 벌어다주었다. 단계 3<준실험 Quasi-Experiments> A/B 테스트를 진행할 수 없는 경우 쓸 수 있다. (한 쪽 그룹이 다른 그룹에 영향을 준다거나, 실험 인프라가 갖춰지지 않았거나) 뉴저지주는 최소임금이 경제에 미치는 효과를 측정하고자 했다. 뉴저지와 펜실베니아를 경계에 두고 뉴저지는 임금을 올리고 펜실베니아는 유지를 했는데, 펜실베니아에서는 고용이 줄어든 반면 임금이 올라간 뉴저지는 오히려 올라갔다. 가장 유명한 준실험 방법론은 이중차분법, 회귀불연속설계법, 매칭법, 도구변수(구조적으론 기가 막힌데 현실에서 쓰기 어렵다)가 있다. 단순 선형 회귀로도 좋은 결과를 얻을 수 있다. 단계4 – <반사실 활용 The world of counterfactuals> A/B 테스트도 진행한 적 없고 추가하려는 기능을 사용할 수 없는 통제 그룹도 없는 새로운 기능을 추가할 때 '그 기능을 추가하지 않았더라면 생겼을 사실'을 예측하는 모델을 만들어서 비교하는 것이다. 이 경우 예측모델의 정확도가 핵심.

[번역] 데이터과학자를 위한 인과추론 치트시트 - Freak Analyst

benheo.github.io

[번역] 데이터과학자를 위한 인과추론 치트시트 - Freak Analyst

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 1월 4일 오후 12:01

 • 

저장 13조회 1,534

댓글 0