[ 모델을 재훈련 시킬 것인가 말 것인가. 그것이 문제로다 ] 모델을 재훈련해야 하는 이유는 분명하다: 데이터가 바뀌고, 상황이 바뀌는 등 모델이 '늙기' 때문. 도메인에 따라 재훈련해야 하는 다양한 이유가 존재하기도 한다. 이커머스 같은 경우는 상황이 빠르게 바뀌기 때문에 데이터 분석 모델 훈련의 주기가 짧은데 반해 제조업 같은 경우는 변화가 느리다. 사기 탐지와 같은 경우, 새로운 형태의 사기 형태에 대한 업데이트를 위해 모델 업데이트가 필요하기도 하다. ✅ 모델 트레이닝 전략을 세우기 위한 체크 리스트 #1 어느정도의 데이터를 필요로 하는가? - 특정 볼륨 이상의 데이터를 모델 인풋으로 넣어도 모델의 성능이 향상되지 않는다면, 충분한 데이터를 활용하고 있다는 증거다 #2 실제 프로덕션에서 모델의 성능이 '퇴화'되는 속도 - 과거 lag 데이터를 활용하여 모델의 성능이 유의미하게 하락하는 기간을 찾는다 - 또는 모델 모니터링을 하면서 모델의 성능이 특정 threshold를 지나는 구간을 - 여기서, 두 가지 선택을 할 수 있다 - 먼저, 과거 데이터를 모두 포함시킨 모델을 훈련함으로써 무겁지만 보다 더 안정적인 모델을 만들 수 있다 - 다음으로, 모델을 보다 더 다이나믹하게 만들고 모델 재훈련 기간을 짧게 가져간다 #3 데이터가 쌓이는 속도 - 새로운 데이터가 얼마나 빠르게 쌓이는가 - 데이터 가공 등 모델에 적합한 데이터가 만들어지기까지 기간 #4 얼마나 자주 유의미한 데이터가 쌓이는가? - 하루, 일주일, 한 달, 반 년 등 재훈련했을 때 유의미한 모델 성능 변화를 이끌어낼 수 있는 추가 데이터의 양을 측정 - 하루 동안 쌓은 데이터를 갖고 모델을 만들더라도 기존의 모델과 큰 차이가 없을 것 처럼, 모델의 성능 향상에 의미있는 추가 데이터를 확보해야 함

To retrain, or not to retrain?

Medium

To retrain, or not to retrain?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 6월 24일 오후 4:00

댓글 0