박이삭

라인게임즈 / 데이터분석팀

<외삽(extrapolation)과 모델의 태생적 한계> 외삽은 자주 쓰이는 말이 아니라 어색하지만 누군가에겐 도움이 될 것 같아 공유드립니다. train과 test 셋의 분포를 관찰해 보신 적이 있을까요? Kaggle과 같은 경진대회를 공부하다 보면 관련 글을 자주 볼 수 있습니다. 그런데 이런 짓은 왜 하는 걸까요? 이는 대회뿐만이 아니라 실무에서도 다뤄져야 할 내용입니다. 예를 들어, x1이 1~10 범위를 가지고 있고, 이를 이용해 모델을 만들었더니 예측할 범위는 11 이상이라면 정확도가 상당히 떨어질 수 있습니다. 또 다른 예시로, 150cm ~ 180cm 키를 가진 사람의 몸무게는 정확히 예측하는 모델에 학습한 적이 없는 190cm 키를 입력하면 상식 밖의 답이 나올 수 있습니다. 이런 문제는 근본적으로 해결할 수는 없지만, 만약 발생한다면 왜 발생했는지 알아야 개선할 수 있을 것입니다. (대회 측이나 회사에 무조건 train 데이터를 더 달라고는 할 수 없으니…) 외삽(extrapolation) 방금 말씀드린 사례들이 외삽에 해당합니다. train에 존재하지 않는 범위를 예측할 경우 모델에 따라 서로 다른 반응을 보이는데요, 위 예시 중 몸무게 예측을 할 때 1. 선형 회귀를 썼다면, 190cm는 180cm보다 키가 크니 몸무게도 큰 값이 나올 것입니다. 2. Tree 모형을 썼다면, 190cm와 180cm는 몸무게가 동일하게 나올 것입니다. 3. 신경망을 썼다면, 활성함수에 따라 다른 성질을 보입니다. 이는 각 모델이 데이터를 일반화를 하는데 사용한 가정에 의해 결정됩니다. 선형 회귀는 데이터가 있는 공간이던, 없는 공간이던 항상 dy/dx(기울기)가 상수입니다. Tree 모델은 의사결정 나무가 없는 공간에서 dy/dx는 0이 됩니다. 신경망은 활성함수에 따라 선형 회귀의 특징을 가지기도 하고 아닐 때도 있습니다. 내가 만든 모델이 train 데이터 밖에서 어떤 특성을 가지고 있으면 좋겠다고 생각해 본 적이 있다면 모델 선정 시 한 번 더 고민을 해봐야겠습니다.

회귀: 내삽과 외삽 - 숨은원리 데이터사이언스: R로 하는 데이터 사이언스

Sumeun

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 1월 15일 오후 2:37

저장 10 • 조회 2,086

함께 읽은 게시물

김소진

제니휴먼리소스 대표(헤드헌터/ 커리어코치)

17시간 전

MZ는 퇴사 원해 X세대는 버틴다 누가 회사에 남나?

저장 1 • 조회 66

한성규

'지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

하루 전

👋 LLM 활용에 도움이 되는 가이드 모음

✅️Prompting Guide 101 by Google : https://lnkd.in/d8UwPWeN

•

저장 7 • 조회 512

장혜림 (메이)

프리랜서 테크 비즈 라이터

20시간 전

AI 시대, 작아지는 팀 규모 : 채용은 어떻게 해야 할까?

과

제너럴리스트, 플레이어 코치…이제 작은 팀으로 큰 임팩트 낸다

저장 1 • 조회 343

김소진

제니휴먼리소스 대표(헤드헌터/ 커리어코치)

21시간 전

👉테헤란로 소진언니 인터뷰, 김소진이 만난 사람 l MZ 프로일잘러!

�

저장 1 • 조회 60

장홍석

스페이스오디티 부대표/CPO

하루 전

< 스포티파이와 멜론, 같은 음악인데 왜 경험은 다를까? >

1. 엔터테인먼트 프로덕트의 본질은 콘텐츠다. 사용자는 콘텐츠를 소비하며 감정을 느낀다. 재미, 감동, 공포, 희열. 인간의 다양한 감정이 콘텐츠를 통해 꺼내진다.

댓글 1 • 저장 4 • 조회 585

석민

커리어 코치

하루 전

이력서에 쓰는 경험

댓글 1 • 저장 6 • 조회 832

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

김하림 우아한형제들 프론트엔드 개발자

타입 안전한 API 모킹으로 프론트엔드 생산성 높이기

Arawn Park Senior Engineer & Engineering Lead

나는 시스템 빌더이다

석민 커리어 코치

이직의 조건

골빈해커 Chief Maker

어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트

동크루트 AI 엔지니어, SW 엔지니어

샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?"

장홍석 스페이스오디티 부대표/CPO

< '네이버 다녀요'라는 말에 아무도 무슨 일을 하는지는 묻지 않

장홍석 스페이스오디티 부대표/CPO

< 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와

송요창 배민 프론트엔드 프로그래머

ChatGPT 버전명 설명

레드버스백맨 리서처 앤 라이터

⟪디자인의 역할은 프로세스에서 낭비를 줄이고 생산성을 개선하는 것

댓글 0

함께 읽은 게시물

MZ는 퇴사 원해 X세대는 버틴다 누가 회사에 남나?

👋 LLM 활용에 도움이 되는 가이드 모음

AI 시대, 작아지는 팀 규모 : 채용은 어떻게 해야 할까?

👉테헤란로 소진언니 인터뷰, 김소진이 만난 사람 l MZ 프로일잘러!

< 스포티파이와 멜론, 같은 음악인데 왜 경험은 다를까? >

이력서에 쓰는 경험

주간 인기 TOP 10

추천 프로필