<도구 변수 분석법> 저와 같이 일하는 분석가 | 커리어리

<도구 변수 분석법> 저와 같이 일하는 분석가 분이 쓴 블로그 글 소개해 드립니다. 인과 추론 분석을 할 때 사용하는 기법 중 '도구변수 (instrumental variable)' 라는 것이 있습니다. 변인 통제가 쉽지 않은 상황에서 인과 효과를 추정하기 위한 방법인데, 주로 사회 과학 분야에서 많이 사용한다고 들었습니다. 개념을 이해하기가 쉽지는 않지만 알고 나면 무척 기발한 방법입니다. 다만 다소 tricky 한 방법이기 때문에 남용할 경우 오히려 잘못된 결론을 도출할 우려도 큰 방법이라 해당 도메인에 대한 지식이 풍부한 고수가 아니면 대단히 주의해야 하는 기법이기도 합니다. 이 글은 도구 변수를 이용한 간단한 분석 사례 두 가지를 소개하고 있습니다. 도구 변수와 관련해서는 https://danbi-ncsoft.github.io/study/2019/08/07/IV.html 도 같이 보시면 좋을 것 같습니다.

인과추론 분석 설계에서 도메인 지식이 필요한 이유

Danbi-ncsoft

2021년 1월 20일 오전 12:44

댓글 0

함께 보면 더 좋은

주로 자연어 처리 분야에서 최근 많이 사용되고 있는 Transformer 를 게임 로그 데이터에 적용해 본 사례 소개해 드립니다. 게임 데이터 분석에서 가장 중점적으로 사용하는 데이터는 게임 활동 로그입니다. 게임 로그에는 캐릭터들이 게임 세계에서 수행하는 다양한 활동 내역이 꽤 상세하게 기록됩니다. 하지만 워낙 포함하고 있는 정보가 많다보니 대개 현업에서는 미리 정한 항목별로 수치들을 집계하여 단순화된 테이블을 만들어 분석합니다. 그러다보니 상당수의 정보가 사라지게 되죠. 이를 테면, 아이템 획득 횟수나 레벨, 획득 경험치, 플레이 시간들이 동일하다고 해서 동일한 특성을 갖는다라고 보긴 어렵습니다. 같은 행동도 어느 위치에서 했는지 그리고 어떤 순서로 했는지 등에 따라 각자가 경험한 느낌이나 캐릭터의 성격은 다를 수 있으니까요. 따라서 정교한 데이터 모델링을 위해선, 이렇게 항목별로 집계한 데이터 대신 활동 로그 시퀀스 정보를 최대한 잘 압축하는 임베딩 기술을 사용하는 것이 필요합니다. 그런데 생각해 보면 이건 동일한 단어 목록이라 하더라도 어떤 순서로 배치하느냐에 따라 의미가 완전히 달라질 수 있는 자연어 처리에서도 비슷합니다. 그래서 최근에 자연어 처리 분야에서 사용하는 딥러닝 기법들을 많이 참고하고 있는데요, 아래 글은 이 중에서도 transformer 를 시도해 본 사례를 정리한 글입니다.

Transformer를 이용해 대량의 게임 데이터를 임베딩 해보자!

Danbi-ncsoft

추천 프로필

현직자에게 업계 주요 소식을 받아보세요.

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS