Random forest 의 창시자로 유명한 | 커리어리

Random forest 의 창시자로 유명한 Leo Breiman 이 2001년에 쓴 논문이다. 논문 제목에서 얘기하는 'Two Cultures' 란, 당시 통계학계의 주류였던 통계 모델링 (논문에서는 'Data Modeling' 이라고 부름) 기법과 주로 전산학에서 발전했던 기계 학습 모델링 (논문에서는 'Algorithmic Modeling' 이라고 부름) 기법을 의미한다. 저자는 통계학계가 지나치게 'data modeling' 에만 치중하고 있는 점을 비판하면서 'algorithmic modeling' 을 적극적이고 폭넓게 활용해야 한다고 주장한다. 비록 20년 전 논문이기에 예측 모델링이 대세가 된 지금 시점에서 보면 다소 시대에 뒤떨어진 얘기라 생각될 수 있겠지만, 통계 모델링과 예측 모델링의 차이가 무엇이고 어떤 점을 주의하며 사용해야 할지에 대해 생각할 계기를 주는 좋은 논문이라 생각한다. 특히, 논문 뒤에는 당시 통계학계의 내노라하는 거장들의 리뷰가 있는데 역시나 많은 생각할 거리를 던져준다. 다만, 이 논문은 당시 통계학계의 답습을 비판하려는 목적이 강하기 때문에 기계 학습 모델링에 편파적인 시각이 강하다. 최근에는 이 논문이 나오던 당시와는 반대로 데이터 적합에 치중하는 분위기가 더 강하고 이로 인한 문제점도 많이 비판받고 있어서 좀 더 균형잡힌 시각에서 논문을 읽어야 하겠다. 아래는 논문에 대한 간략한 요약이다. 'Data modeling' 은 분석하고자 하는 대상 자체의 매커니즘을 모델링하는 것이 목적이다. 즉, 분석 데이터를 생성한 시스템 자체를 이해하는 것이 목적이기 때문에 모델에 대한 검정 및 해석을 중요하게 생각한다. 주로 선형 회귀 등을 이용하여 후보 모델을 생성하여 데이터에 적합시켜보고, 이에 대한 적합도 검정이나 잔차 분석을 통해 모델을 평가한다. 반면, 'algorithmic modeling'은 자연 자체의 매커니즘을 파악하기는 어려우니 대신 학습 데이터를 활용해 자연 매커니즘을 최대한 모사한 예측 모델을 만드는 것이 목적이다. 따라서 neural net 과 같이 해석은 어렵더라도 예측 정확도를 높일 수 있는 복잡한 모델을 이용하며, 예측 정확도 측정을 통해 모델을 최적화한다. 통계학계에서는 대부분 'data modeling' 을 사용하고 있는데, 다음과 같은 문제점이 있다. 1) 모델 검정에 기반한 데이터 분석은 사실 모델의 매커니즘에 대한 것이지 실제 대상의 매커니즘에 대한 분석이 아니다. 따라서 만약 모델이 원래 대상을 제대로 반영한 것이 아니라면, 검정 결과가 맞다하더라도 결론 자체는 틀린 것이다. 2) 적합도 검정 기법 자체가 한계점이 많다. 테스트 자체가 갖고 있는 오류율도 있고, 대립 가설을 정밀하게 설계하지 못하면 검정력이 떨어진다는 연구가 있다. 게다가 모델에 사용되는 변수가 많아질수록 이런 현상은 심화된다. 3) 전통적인 검정 기법에서는 여러 개의 후보 모델이 검정을 통과할 경우 어떤 모델이 더 정확한지에 대한 답을 주지 못한다. Algorithmic modeling 의 발전은 우리에게 다음과 같은 교훈을 준다. 1) 좋은 모델은 한 가지만 있는 것이 아니라 여러 개가 존재할 수 있다. 이들 중 어떤 것이 가장 적절한지 판단할 수 있는 가장 명백한 방법은 예측 정확도를 측정하는 것이다. 2) 우리가 흔히 언급하는 '오컴의 면도날'에 의하면 단순한 것이 더 좋은 것이다. 하지만 모델링에서는 대개 복잡한 모델이 단순한 모델보다 에측 정확도가 더 높다. 즉, 단순함과 예측 성능 사이의 trade-off 가 존재한다 (그런데 뒤에 나오지만, 이런 딜레마는 데이터 분석의 목적을 모델의 해석이 아니라 응답변수와 예측변수 사이의 관계와 관련된 정보를 얻는 것으로 바꾸면 해결된다고 주장한다). 3) 보통 '차원의 저주' 라고 해서 모델의 후보 변수가 많으면 이 중에서 가장 많은 정보를 담고 있는 일부 핵심 변수를 찾으려고 한다. 하지만, 이렇게 차원이 줄어들면 사용할 수 있는 정보도 줄어들기 때문에 예측 성능은 떨어지게 된다. 그러니 오히려 차원을 늘려 예측 정확도를 늘리는 것이 필요하다. 예측 성능이 높은 복잡한 모델은 비록 모델에 대한 해석이 어려운 문제가 있지만, 각 변수들이 예측 성능에 주는 영향도를 측정하는 방법(random forest 에서 제공하는 variable importance가 대표적인 예임)을 이용하면, 예측 변수와 응답 변수 사이의 관계와 관련된 정보를 얻을 수 있다. 그리고 이게 예측 성능이 떨어지는 단순한 모델보다 오히려 더 좋은 정보를 줄 수 있다.

Breiman : Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)

Projecteuclid

2020년 12월 28일 오전 5:57

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 개발자를 위한 커리어 SNS