[ 이 데이터가 중요해? 얼마나? 측정할 수 있어? ] - DVRL은 각 데이터가 모델 훈련에 얼마나 도움이 되는지 계산해준다! - 딥러닝 모델을 훈련시킬 때, 항상 모든 데이터가 도움이 되는 것은 아니다.  자동차를 찾는 AI 모델에 고양이 사진이 들어가면 안되듯이, 훈련에 도움이 안되는 데이터가 많을 수록 모델이 배우기 힘들어한다. - 물론 어느정도 다양한 데이터를 보여주면 모델이 다양한 상황에 적응은 하는데 도움을 주지만 그 밸런스를 맞추는게 중요하다. ● 작동 원리 - 모델 훈련 과정에서 데이터의 분산을 이리 저리 대입해보면서 각 데이터 샘플이 모델에 유용한 정도를 측정한다. ● 응용 분야 - 조금 다른 용도로 활용할 때, 유용한 데이터만을 골라낼 수 있다. (기존에 고양이 판별에 사용하던 데이터 중 살쾡이 판별에 쓰일 수 있는 고양이 데이터를 뽑아낼 수 있다.) - 잘못되거나 쓸모 없는 데이터를 찾아낼 수 있다. (고양이를 판별해야 하는데 강아지 사진이 있을 때) - 현재 데이터가 목적에 유용한지 판단하는데 이용할 수 있다. (호랑이 사진 갖고 고양이 판별에 이용할 수 있을까?) ● 비즈니스 임팩트 - 이런 저런 데이터를 많이 모으고 활용할텐데, 진짜 필요한 데이터가 뭔지 알아낼 수 있다. - 상대적으로 적은 데이터를 갖고 분석의 결과를 향상할 수 (있는 가능성이) 있다. ※ 깊은 이해를 원하시는 분은 링크와 논문을 참고 바랍니다!

Estimating the Impact of Training Data with Reinforcement Learning

Google AI Blog

Estimating the Impact of Training Data with Reinforcement Learning

2021년 1월 22일 오후 2:11

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!