선형 회귀를 이용해서 시계열 데이터에 대한 예 | 커리어리

선형 회귀를 이용해서 시계열 데이터에 대한 예측 모델을 단계적으로 만들어 나가는 방법을 소개한 글입니다. 대개 시계열 데이터를 모델링한다고 하면 무조건 ARIMA 혹은 LSTM 을 떠올리는 경우가 많은데, 사실 우리가 접하는 시계열 데이터들은 다양한 추가 정보들을 많이 갖고 있는 경우가 많습니다. 이 글에서는 시간 단위 전력량을 예측하는 모델을 예시로 들고 있는데, 이 경우에도 요일, 시간대, 온도, 휴일이나 주말 여부, 계절 등의 다양한 보조 정보를 이용하면 선형 회귀 기법만으로도 충분히 훌륭한 예측 모델을 만들 수 있습니다.

Keep it simple, keep it linear: A linear regression model for time series

Medium

2021년 2월 23일 오전 4:58

댓글 0

함께 보면 더 좋은

주로 자연어 처리 분야에서 최근 많이 사용되고 있는 Transformer 를 게임 로그 데이터에 적용해 본 사례 소개해 드립니다. 게임 데이터 분석에서 가장 중점적으로 사용하는 데이터는 게임 활동 로그입니다. 게임 로그에는 캐릭터들이 게임 세계에서 수행하는 다양한 활동 내역이 꽤 상세하게 기록됩니다. 하지만 워낙 포함하고 있는 정보가 많다보니 대개 현업에서는 미리 정한 항목별로 수치들을 집계하여 단순화된 테이블을 만들어 분석합니다. 그러다보니 상당수의 정보가 사라지게 되죠. 이를 테면, 아이템 획득 횟수나 레벨, 획득 경험치, 플레이 시간들이 동일하다고 해서 동일한 특성을 갖는다라고 보긴 어렵습니다. 같은 행동도 어느 위치에서 했는지 그리고 어떤 순서로 했는지 등에 따라 각자가 경험한 느낌이나 캐릭터의 성격은 다를 수 있으니까요. 따라서 정교한 데이터 모델링을 위해선, 이렇게 항목별로 집계한 데이터 대신 활동 로그 시퀀스 정보를 최대한 잘 압축하는 임베딩 기술을 사용하는 것이 필요합니다. 그런데 생각해 보면 이건 동일한 단어 목록이라 하더라도 어떤 순서로 배치하느냐에 따라 의미가 완전히 달라질 수 있는 자연어 처리에서도 비슷합니다. 그래서 최근에 자연어 처리 분야에서 사용하는 딥러닝 기법들을 많이 참고하고 있는데요, 아래 글은 이 중에서도 transformer 를 시도해 본 사례를 정리한 글입니다.

Transformer를 이용해 대량의 게임 데이터를 임베딩 해보자!

Danbi-ncsoft

추천 프로필

현직자에게 업계 주요 소식을 받아보세요.

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS