[ 머신러닝 모델이 설명 가능해야 하는 이유 | 커리어리

[ 머신러닝 모델이 설명 가능해야 하는 이유 - 보험료 ] 내 보험료는 어떻게 산출되는 걸까? 무슨 리스크가 있길래 보험료가 낮거나 높은 걸까? 보험은 법의 테두리 안에서 활동해야 하는 경우가 많으며, 깨어있는 소비자들이 증가함에 따라 투명하고 정당한 pricing 관행의 필요성이 증가하기도 했습니다. 그리고 머신러닝과 AI 같은 새로운 기술을 보험료 산출에 활용하기 위해서는 그 과정을 설명할 수 있어야 합니다. 해당 논문은 이미 많은 현직자분들이 알고 있을 '머신러닝/AI 모델에 설명력을 부여하는 방법'을 보험 산업의 관점에서 잘 요약해 놓았습니다. 논문의 내용은 보험과 관련된 데이터 분석의 설명 가능성 이지만, 그 개념은 다른 분야에도 활용될 수 있을 것 같습니다. 📈 먼저, 전통적인 보험료(요율) 산출 방법은 다음과 같습니다. 1. 보험 계약 관련 데이터 확보 2. 데이터 분석 준비 (데이터 정제 및 처리) 3. 데이터 분석 적용 4. 최종 요율 산출 5. 요율을 감독 기관에 제출. 이때, 요율 산출 방법을 설명해야 함 6. 활용된 방법과 데이터에 대한 감독 기관의 질문에 응답 📈 전통적인 통계 방법론을 활용한 요율 산출에서 나아가 머신러닝을 활용하여 보다 '적절한' 보험료  (요율)을 산정하고자 할 때 가장 큰 관문은 5번과 6번 입니다. 보험료 도출 과정을 설명을 할 수 있어야 하는데 머신러닝/AI 모델은 직관적으로 설명하기 어렵습니다. 그 이유는 다음과 같습니다. 1. 전통 GML을 이용한 모델들은 오랜 기간 활용된 가설들을 바탕으로 만들어지지만, 머신러닝 모델들은 가정에 기반하기 보다는 훈련된 데이터에 영향을 더 많이 받는다 2. 다양한 모델이 결합된 앙상블 모델인 경우가 많기 때문에 해석에 쉽지 않다 📈 즉, 훈련 방법, 모델, 데이터 모두에 의존하기 때문에 데이터의 분포 등에 대한 가정을 바탕으로 만들어진 기존의 보험료 산출식에 활용되던 판단 기준을 적용하기 어렵다. 📈 그런데 설명 가능성의 정의가 모호합니다. 분명, 머신러닝이라고 해서 설명력이 없는 것은 아니기 때문입니다. - 설명 가능성은 상대적이다. 내부 관계자, 감독 기관, 보험가입자(개인) 모두 기술, 규제, 형평성 등 다양한 기준과 관점이 있다 - 회귀모형이라고 해서 해석이 쉬운 것도 아니고, 머신러닝 기법이라고 해서 해석이 어려운 것도 아니다.         - 회귀모형에 많은 가정이 들어가고 상호의존성을 따지기 시작하면 해석하기 까다로워진다.         - Tree based 머신러닝 기법들은 이미 매우 많은 리서치가 쌓여있기 때문에 방법론에 대해서 불투명하지 않다. - 그렇지만 문제는 모델에 설명력을 부여하는 사람들이 모델을 만드는 사람들 자신이라는 것이다. - 이 말을 다르게 표현하면, 표준화된 기준이 없다는 것입니다. 📈 이런 설명 가능성에 대한 기준이 불투명한 상황 많아지자 미국의 보험위원협회(National Association of Insurance Commissioners)는 머신러닝 기반 요율 산출 모델 평가에 활용될 기준 세 가지를 제시했습니다. - 새로운 모델이 기존의 보험료에 어떤 영향을 주고, 요구를 받을 시 보험사가 어떻게 설명 할 것인가? - 모델이 제시하는, 손해율이나 비용 측정에 기여하는 리스크가 계리의 관점에서 직관적이거나 입증 가능한 연관성이 있는가? 즉, 상식이나 비즈니스 측면에서 - 모델로 인해 개인이 차별을 받지 않는가? 📈 따라서 논문에서는 각 질문에 대한 해답을 알려주기 위한 방법론을 구별해 놓았습니다. ● 질문1. 모델에 중요한 변수들은 무엇인가? 그리고 그 변수들이 모델의 퍼포먼스에 어떤 영향을 주는가? ● 답변1. 변수 중요도 (Variable importance) ● 질문2. 인풋을 바꿈에 따라 평균 loss cost가 어떻게 변하는가? ● 답변2. Partial dependence plot (PDP) 또는 Accumulated local effect (ALE) plot. y=ax+b의 a와 같은 계수가 없는 non-parametric models 이나 neural network에 활용 ● 질문3. 각 보험 가입자에 대해, 각 변수들이 예측값에 어떤 영향을 주는가? ● 답변3. SHAP, LIME. 각 변수들이 개별 예측값의 결과에 평균적으로 얼마큼의 영향을 어떻게 주는지 표현. ● 결과가 비즈니스 측면의 관행/상식과 크게 벗어나지 않는지 판단하는데 유용. 예를 들어, 자동차 사고가 한 번 난 사람의 보험료가 상승하지 않고 하락한다고 해석이 된다면 해당 모델은 비즈니스의 방향과 맞지 않은 결과를 도출한 것이다. 마지막으로, 제가 유용하게 활용한 SHAP, LIME, 그리고 '설명 가능한 머신러닝' 이북에 대한 링크도 걸어두겠습니다. 관심 있으시다면 참고하시길 바랍니다 :) https://christophm.github.io/interpretable-ml-book/ https://github.com/slundberg/shap https://github.com/marcotcr/lime

Towards Explainability of Machine Learning Models in Insurance Pricing

NASA/ADS

2021년 3월 30일 오후 3:49

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS