Estimating the Impact of Training Data with Reinforcement Learning
Google AI Blog
[ 이 데이터가 중요해? 얼마나? 측정할 수 있어? ] - DVRL은 각 데이터가 모델 훈련에 얼마나 도움이 되는지 계산해준다! - 딥러닝 모델을 훈련시킬 때, 항상 모든 데이터가 도움이 되는 것은 아니다. 자동차를 찾는 AI 모델에 고양이 사진이 들어가면 안되듯이, 훈련에 도움이 안되는 데이터가 많을 수록 모델이 배우기 힘들어한다. - 물론 어느정도 다양한 데이터를 보여주면 모델이 다양한 상황에 적응은 하는데 도움을 주지만 그 밸런스를 맞추는게 중요하다. ● 작동 원리 - 모델 훈련 과정에서 데이터의 분산을 이리 저리 대입해보면서 각 데이터 샘플이 모델에 유용한 정도를 측정한다. ● 응용 분야 - 조금 다른 용도로 활용할 때, 유용한 데이터만을 골라낼 수 있다. (기존에 고양이 판별에 사용하던 데이터 중 살쾡이 판별에 쓰일 수 있는 고양이 데이터를 뽑아낼 수 있다.) - 잘못되거나 쓸모 없는 데이터를 찾아낼 수 있다. (고양이를 판별해야 하는데 강아지 사진이 있을 때) - 현재 데이터가 목적에 유용한지 판단하는데 이용할 수 있다. (호랑이 사진 갖고 고양이 판별에 이용할 수 있을까?) ● 비즈니스 임팩트 - 이런 저런 데이터를 많이 모으고 활용할텐데, 진짜 필요한 데이터가 뭔지 알아낼 수 있다. - 상대적으로 적은 데이터를 갖고 분석의 결과를 향상할 수 (있는 가능성이) 있다. ※ 깊은 이해를 원하시는 분은 링크와 논문을 참고 바랍니다!
2021년 1월 22일 오후 2:11