๐ํต๊ณํ ์ ๊ณต์๊ฐ ์ธ๊ณผ์ถ๋ก ์์ ๋๋ ํน๋ณํ ๋งค๋ ฅ
์ต๊ทผ ๊ฐ์ฒ๋ ๊ธธ๋ณ์ ๊ณ ๊ธํต๊ณ๊ต์ก์์ ๋งค์นญ์ ์ฃผ์ ๋ก ๊ฐ์๋ฅผ ํ๊ฒ๋๋ฉฐ, ์ธ๊ณผ์ถ๋ก (Causal Inference)์ ๋ํด ํน๋ณํ ํฅ๋ฏธ๋ฅผ ๊ฐ๊ฒ ๋๋ค. ํ์ ํต๊ณํ ๋ฐฑ๊ทธ๋ผ์ด๋๋ก Data Science๋ฅผ ์ํํ๋ ์ฌ๋์ผ๋ก์ ์ถ๋ก ์ ๋ชจ๋ธ๋ง์ ๊ฐ์น, ์ฃผ์ํ ๋งํ ์ฌํญ ๋ฑ์ ๊ด์ฌ๊ณผ ๊ณ ๋ฏผ์ด ๋ง์๊ธฐ๋ ํ๊ณ , ์ค๋ฌด์์ 1๋ ์ ๋๋ฅผ ์ฃผ๋ก ์๊ณ์ด ์ถ๋ก ๋ชจ๋ธ๋ง(DLNM)์ ์งํํ๋ฉฐ ์๊ณ ์์๋ ๊ณ ๋ฏผ์ด ์ธ๊ณผ์ถ๋ก ์ ๋ชจํฐ๋ฒ ์ด์ ๊ณผ ์ ํํ๊ฒ ์ผ์นํ๋ค. ์์ธก ๋ชจ๋ธ๋ง์์ ๋ค์ํ ๊ธฐ๋ฒ(e.g. PCA)์ ํ์ฉํ Feature engineering์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ฏ์ด, ์ถ๋ก ์ ๊ด์ ์ ๋ชจ๋ธ๋ง์์๋ ์ ํํ๊ณ ํฉ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๊ธฐ ์ํด ์ธ๊ณผ์ถ๋ก ๊ธฐ๋ฒ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํด์ผ ํ๋ค๋ ์๊ฐ์ด ๋ ๋ค. ํน์ ํ์์ ์์ธ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ ํํ๊ฒ ์ถ๋ก ํด๋ด๋ ๊ฒ์ ์๋นํ ์ด๋ ต๋ค. ๋ฐ์ดํฐ ๋ถ์, ๋ชจ๋ธ๋ง์ ํตํด ํน์ ์ด๋ฒคํธ๊ฐ ๊ฐ์ ธ๋ค์ฃผ๋ ํจ๊ณผ๋ฅผ ํ์ ํ๊ณ ์ ํ ๋, ์ค๋ฌด์๋ค์ ํญ์ "๊ณผ์ฐ ์ด ๊ฒฐ๊ณผ๊ฐ ์ฐ๋ฆฌ๊ฐ ์๊ฐํ๋ ์์ธ์ผ๋ก๋ถํฐ ๋์จ ๊ฒ์ด ๋ง๋๊ฐ?"์ ๋ํ ์ง๋ฌธ์ ๋์ ์์ด ๋์ ธ๋ด์ผํ๋ค. ์ฌ๊ธฐ์ ์ด๋์ ๋์ ํ์ ์ ์ค ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด "์ธ๊ณผ์ถ๋ก "์ด๋ผ๊ณ ์๊ฐํ๋ค. ์์ ์์ธก ๋ชจ๋ธ๋ง์์ Feature engineering์ ์ญํ ์ด ๊ณง ์ถ๋ก ๋ชจ๋ธ๋ง์์์ ์ธ๊ณผ์ถ๋ก ๊ธฐ๋ฒ๊ณผ ๋น์ทํ๋ค๊ณ ์๊ธฐํ์ง๋ง, ์๊ฐํด๋ณด๋ ํ๋๊ฐ ๋ ์๊ฐ์ด ๋๋ค. ์์ธก ๋ชจ๋ธ๋ง์์๋ ๋ฐ์ดํฐ๋ฅผ Training set, Test set์ผ๋ก ๋ถํ ํ์ฌ Unobserved data set์ ๋ํ ์ฑ๋ฅ์ ๊ฐ๋ ํด๋ณผ ์ ์๋๋ฐ, ์ถ๋ก ๋ชจ๋ธ๋ง์์๋ ์ด๋ฌํ ์ฅ์น๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ธ์ ์ผ๋ก ์ถ๋ก ๋ชจ๋ธ๋ง์ด ๋์ฑ ๊น๋ค๋กญ๊ณ ์ด๋ ต๋ค๊ณ ์๊ฐํด์๋ค. ๊ทธ๋ฐ๋ฐ, ์๊ฐํด๋ณด๋ ์ถ๋ก ๋ชจ๋ธ๋ง์์ ์ผ์ข ์ ์ด๋ฐ ์ฅ์น ์ญํ ์ ํด์ค ์ ์๋ ๊ฒ์ด ์ธ๊ณผ์ถ๋ก ์ด ์๋๊น? ํ๋ ์๊ฐ ์ด๋ ๋ค. ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ ๊ฐ์น๋ฅผ ์ถ๋ก ๋ชจ๋ธ๋ง์ ๋ํด์๋ง ์ด์ผ๊ธฐ ํ์ง๋ง, ๋ฌผ๋ก ์์ธก ๋ชจ๋ธ๋ง์์๋ ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ ๊ฐ์น๋ ์ถฉ๋ถํ ์กด์ฌํ๋ค. ์ค์ ๋ก ์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋ ๋ถ์ผ์ ์ต๋ ํํ ์ค ํ๋์ธ NeurIPS์์๋ Causal Inference Workshop์ด ์ด๋ฆฌ๊ณ ์๋ค. ์ด์ ๋ง ์ธ๊ณผ์ถ๋ก ์ ๊ด์ฌ์ ๊ฐ๊ฒ๋ ๊ฑธ์๋ง ๋จ๊ณ์ ๋ถ๊ณผํ์ง๋ง, ํ๋ถ, ์์ฌ๋ฅผ ํต๊ณํ์ผ๋ก ์ ๊ณตํ๋ฉฐ ํํ์ด ํด์๋ ๊ณ ๋ฏผ๋ค์ด ์ธ๊ณผ์ถ๋ก ์ด๋ผ๋ ํ๋ฌธ์ด ๋ง์ ๋ถ๋ถ์ ํด๊ฒฐํด ์ค ์ ์์ง ์์๊น ํ๋ ์ค๋ ์ด ๋ ๋ค. ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํ๋ ์ฌ๋๋ค์ด ๋ฅ๋ฌ๋์ด๋ผ๋ ๋ถ์ผ๊ฐ ๋ฐ์งํ๊ธฐ ์์ํ์๋ ๋๊ผ๋ ์ค๋ ๋ ๊ฐ์ ์ด ์ด๋ฐ๊ฑธ๊น? 2022๋ ์ Data Science/Analyst ์ง๋ฌด์ชฝ ์ฌ๋ผ์จ ์ฐ๋ฆฌ๋๋ผ์ ์๋ง์ ์ฑ์ฉ ๊ณต๊ณ ๋ฅผ ๋์๋ดค๋๋ฐ, ๊ณผ๊ฑฐ์ ๋นํด ๋ถ์ผ๋ฅผ ๋ง๋ก ํ ํจ์ฌ ๋ ๋ง์ ๊ณณ์์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ๊ด์ฌ์ ์๊ณ ์์์ ๋๊ผ๋ค. ๊ทธ๋์, ์ธ๊ณผ์ถ๋ก ์ ์ค์์ฑ์ ์์ผ๋ก ๋๋์ฑ ์ปค์ง ๊ฒ์ด๋ผ๊ณ ๋ณด๊ณ ์๋ค. ์๋, ์ปค์ ธ์ผ๋ง ํ๋ค. ์ธ๊ณผ์ถ๋ก ์ ์ค๋ฌด์ ๋์ ํ๋ ๊ธฐ์ ์ด ๋ง์์ก์ผ๋ฉด ํ๋ค. ๊ทธ๋์ผ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ๋ณด๊ฐ์ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆด ๊ฐ๋ฅ์ฑ์ ์ค์ผ ์ ์์ ํ ๋๊น.