[ 모델을 재훈련 시킬 것인가 말 것인가. 그것이 문제로다 ] 모델을 재훈련해야 하는 이유는 분명하다: 데이터가 바뀌고, 상황이 바뀌는 등 모델이 '늙기' 때문. 도메인에 따라 재훈련해야 하는 다양한 이유가 존재하기도 한다. 이커머스 같은 경우는 상황이 빠르게 바뀌기 때문에 데이터 분석 모델 훈련의 주기가 짧은데 반해 제조업 같은 경우는 변화가 느리다. 사기 탐지와 같은 경우, 새로운 형태의 사기 형태에 대한 업데이트를 위해 모델 업데이트가 필요하기도 하다. ✅ 모델 트레이닝 전략을 세우기 위한 체크 리스트 #1 어느정도의 데이터를 필요로 하는가? - 특정 볼륨 이상의 데이터를 모델 인풋으로 넣어도 모델의 성능이 향상되지 않는다면, 충분한 데이터를 활용하고 있다는 증거다 #2 실제 프로덕션에서 모델의 성능이 '퇴화'되는 속도 - 과거 lag 데이터를 활용하여 모델의 성능이 유의미하게 하락하는 기간을 찾는다 - 또는 모델 모니터링을 하면서 모델의 성능이 특정 threshold를 지나는 구간을 - 여기서, 두 가지 선택을 할 수 있다 - 먼저, 과거 데이터를 모두 포함시킨 모델을 훈련함으로써 무겁지만 보다 더 안정적인 모델을 만들 수 있다 - 다음으로, 모델을 보다 더 다이나믹하게 만들고 모델 재훈련 기간을 짧게 가져간다 #3 데이터가 쌓이는 속도 - 새로운 데이터가 얼마나 빠르게 쌓이는가 - 데이터 가공 등 모델에 적합한 데이터가 만들어지기까지 기간 #4 얼마나 자주 유의미한 데이터가 쌓이는가? - 하루, 일주일, 한 달, 반 년 등 재훈련했을 때 유의미한 모델 성능 변화를 이끌어낼 수 있는 추가 데이터의 양을 측정 - 하루 동안 쌓은 데이터를 갖고 모델을 만들더라도 기존의 모델과 큰 차이가 없을 것 처럼, 모델의 성능 향상에 의미있는 추가 데이터를 확보해야 함

To retrain, or not to retrain?

Medium

To retrain, or not to retrain?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 6월 24일 오후 4:00

댓글 0

    함께 읽은 게시물

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

    F-Lab 에서 주니어 개발자들이(사실 개발자라면 누구나) 보시면 좋을 아티클 모음을 공유해 주었네요! 검색엔진부터 비동기 처리, NoSQL 등 다양한 분야의 아티클들이 공유되어 있으니 관심있으신 분들은 보시면 좋겠습니다. F-Lab 에서 공유해주신 아티클 주제를 나열해보면 다음과 같습니다. 📌 구글이 직접 말하는 검색엔진의 원리 (tali.kr) 📌 검색 엔진은 어떻게 작동하는가 (xo.dev) 📌 네이버의 검색엔진의 특징과 알고리즘 (tistory.com) 📌 [네이버 블로그]네이버 검색의 원리 : 네이버 블... 더 보기

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

    F-Lab : 상위 1% 개발자들의 멘토링

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

     • 

    저장 122 • 조회 3,380


    몇 년 전까지만 해도 명품 브랜드의 뷰티 라인은 향수나 한정판 립스틱처럼, 브랜드 세계관의 ‘조연’에 가까웠다. 하지만 최근 흐름은 전혀 다르다. 패션 하우스로 정체성을 다져온 브랜드들이 이제 메이크업, 스킨케어, 네일까지 뷰티 카테고리를 본격적으로 확장하고 있다.

    ... 더 보기

    명품 브랜드는 왜, 뷰티에 진심일까

    여성동아

    명품 브랜드는 왜, 뷰티에 진심일까

    조회 522



    역전의 명수

    

    ... 더 보기

     • 

    저장 5 • 조회 1,185


    《오늘 하루 문득 든 생각》

    ... 더 보기

     • 

    저장 4 • 조회 664


    야 걔 놀고 있대 I 중년 재취업 비밀. 노하우

    ... 더 보기