Community

๐Ÿ”Žํ†ต๊ณ„ํ•™ ์ „๊ณต์ž๊ฐ€ ์ธ๊ณผ์ถ”๋ก ์—์„œ ๋А๋‚€ ํŠน๋ณ„ํ•œ ๋งค๋ ฅ

์ตœ๊ทผ ๊ฐ€์ฒœ๋Œ€ ๊ธธ๋ณ‘์› ๊ณ ๊ธ‰ํ†ต๊ณ„๊ต์œก์—์„œ ๋งค์นญ์„ ์ฃผ์ œ๋กœ ๊ฐ•์˜๋ฅผ ํ•˜๊ฒŒ๋˜๋ฉฐ, ์ธ๊ณผ์ถ”๋ก (Causal Inference)์— ๋Œ€ํ•ด ํŠน๋ณ„ํ•œ ํฅ๋ฏธ๋ฅผ ๊ฐ–๊ฒŒ ๋๋‹ค. ํ‰์†Œ ํ†ต๊ณ„ํ•™ ๋ฐฑ๊ทธ๋ผ์šด๋“œ๋กœ Data Science๋ฅผ ์ˆ˜ํ–‰ํ•˜๋˜ ์‚ฌ๋žŒ์œผ๋กœ์„œ ์ถ”๋ก ์  ๋ชจ๋ธ๋ง์˜ ๊ฐ€์น˜, ์ฃผ์˜ํ• ๋งŒํ•œ ์‚ฌํ•ญ ๋“ฑ์— ๊ด€์‹ฌ๊ณผ ๊ณ ๋ฏผ์ด ๋งŽ์•˜๊ธฐ๋„ ํ–ˆ๊ณ , ์‹ค๋ฌด์—์„œ 1๋…„ ์ •๋„๋ฅผ ์ฃผ๋กœ ์‹œ๊ณ„์—ด ์ถ”๋ก  ๋ชจ๋ธ๋ง(DLNM)์„ ์ง„ํ–‰ํ•˜๋ฉฐ ์•ˆ๊ณ ์žˆ์—ˆ๋˜ ๊ณ ๋ฏผ์ด ์ธ๊ณผ์ถ”๋ก ์˜ ๋ชจํ‹ฐ๋ฒ ์ด์…˜๊ณผ ์ •ํ™•ํ•˜๊ฒŒ ์ผ์น˜ํ–ˆ๋‹ค. ์˜ˆ์ธก ๋ชจ๋ธ๋ง์—์„œ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•(e.g. PCA)์„ ํ™œ์šฉํ•œ Feature engineering์œผ๋กœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋“ฏ์ด, ์ถ”๋ก ์  ๊ด€์ ์˜ ๋ชจ๋ธ๋ง์—์„œ๋Š” ์ •ํ™•ํ•˜๊ณ  ํ•ฉ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ณผ์ถ”๋ก  ๊ธฐ๋ฒ•์„ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์— ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ ๋‹ค. ํŠน์ • ํ˜„์ƒ์˜ ์›์ธ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”๋ก ํ•ด๋‚ด๋Š” ๊ฒƒ์€ ์ƒ๋‹นํžˆ ์–ด๋ ต๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„, ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ํŠน์ • ์ด๋ฒคํŠธ๊ฐ€ ๊ฐ€์ ธ๋‹ค์ฃผ๋Š” ํšจ๊ณผ๋ฅผ ํŒŒ์•…ํ•˜๊ณ ์ž ํ•  ๋•Œ, ์‹ค๋ฌด์ž๋“ค์€ ํ•ญ์ƒ "๊ณผ์—ฐ ์ด ๊ฒฐ๊ณผ๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์ƒ๊ฐํ•˜๋Š” ์š”์ธ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ๊ฒƒ์ด ๋งž๋Š”๊ฐ€?"์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ๋Š์ž„ ์—†์ด ๋˜์ ธ๋ด์•ผํ•œ๋‹ค. ์—ฌ๊ธฐ์— ์–ด๋А์ •๋„์˜ ํ™•์‹ ์„ ์ค„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•๋ก ์ด "์ธ๊ณผ์ถ”๋ก "์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ์•ž์„œ ์˜ˆ์ธก ๋ชจ๋ธ๋ง์—์„œ Feature engineering์˜ ์—ญํ• ์ด ๊ณง ์ถ”๋ก  ๋ชจ๋ธ๋ง์—์„œ์˜ ์ธ๊ณผ์ถ”๋ก  ๊ธฐ๋ฒ•๊ณผ ๋น„์Šทํ•˜๋‹ค๊ณ  ์–˜๊ธฐํ–ˆ์ง€๋งŒ, ์ƒ๊ฐํ•ด๋ณด๋‹ˆ ํ•˜๋‚˜๊ฐ€ ๋” ์ƒ๊ฐ์ด ๋‚œ๋‹ค. ์˜ˆ์ธก ๋ชจ๋ธ๋ง์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ Training set, Test set์œผ๋กœ ๋ถ„ํ• ํ•˜์—ฌ Unobserved data set์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ๊ฐ€๋Š ํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ถ”๋ก  ๋ชจ๋ธ๋ง์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์žฅ์น˜๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๊ฐœ์ธ์ ์œผ๋กœ ์ถ”๋ก  ๋ชจ๋ธ๋ง์ด ๋”์šฑ ๊นŒ๋‹ค๋กญ๊ณ  ์–ด๋ ต๋‹ค๊ณ  ์ƒ๊ฐํ•ด์™”๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ์ƒ๊ฐํ•ด๋ณด๋‹ˆ ์ถ”๋ก  ๋ชจ๋ธ๋ง์—์„œ ์ผ์ข…์˜ ์ด๋Ÿฐ ์žฅ์น˜ ์—ญํ• ์„ ํ•ด์ค„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ์ธ๊ณผ์ถ”๋ก ์ด ์•„๋‹๊นŒ? ํ•˜๋Š” ์ƒ๊ฐ ์ด๋“ ๋‹ค. ์ธ๊ณผ์ถ”๋ก ์ด ๊ฐ–๋Š” ๊ฐ€์น˜๋ฅผ ์ถ”๋ก  ๋ชจ๋ธ๋ง์— ๋Œ€ํ•ด์„œ๋งŒ ์ด์•ผ๊ธฐ ํ–ˆ์ง€๋งŒ, ๋ฌผ๋ก  ์˜ˆ์ธก ๋ชจ๋ธ๋ง์—์„œ๋„ ์ธ๊ณผ์ถ”๋ก ์ด ๊ฐ–๋Š” ๊ฐ€์น˜๋Š” ์ถฉ๋ถ„ํžˆ ์กด์žฌํ•œ๋‹ค. ์‹ค์ œ๋กœ ์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„์•ผ์˜ ์ตœ๋Œ€ ํ•™ํšŒ ์ค‘ ํ•˜๋‚˜์ธ NeurIPS์—์„œ๋„ Causal Inference Workshop์ด ์—ด๋ฆฌ๊ณ  ์žˆ๋‹ค. ์ด์ œ ๋ง‰ ์ธ๊ณผ์ถ”๋ก ์— ๊ด€์‹ฌ์„ ๊ฐ–๊ฒŒ๋œ ๊ฑธ์Œ๋งˆ ๋‹จ๊ณ„์— ๋ถˆ๊ณผํ•˜์ง€๋งŒ, ํ•™๋ถ€, ์„์‚ฌ๋ฅผ ํ†ต๊ณ„ํ•™์œผ๋กœ ์ „๊ณตํ•˜๋ฉฐ ํ‹ˆํ‹ˆ์ด ํ•ด์™”๋˜ ๊ณ ๋ฏผ๋“ค์ด ์ธ๊ณผ์ถ”๋ก ์ด๋ผ๋Š” ํ•™๋ฌธ์ด ๋งŽ์€ ๋ถ€๋ถ„์„ ํ•ด๊ฒฐํ•ด ์ค„ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ ํ•˜๋Š” ์„ค๋ ˜์ด ๋“ ๋‹ค. ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋‚˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๋˜ ์‚ฌ๋žŒ๋“ค์ด ๋”ฅ๋Ÿฌ๋‹์ด๋ผ๋Š” ๋ถ„์•ผ๊ฐ€ ๋ฐ˜์งํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ์„๋•Œ ๋А๊ผˆ๋˜ ์„ค๋ ˆ๋Š” ๊ฐ์ •์ด ์ด๋Ÿฐ๊ฑธ๊นŒ? 2022๋…„์— Data Science/Analyst ์ง๋ฌด์ชฝ ์˜ฌ๋ผ์˜จ ์šฐ๋ฆฌ๋‚˜๋ผ์˜ ์ˆ˜๋งŽ์€ ์ฑ„์šฉ ๊ณต๊ณ ๋ฅผ ๋Œ์•„๋ดค๋Š”๋ฐ, ๊ณผ๊ฑฐ์— ๋น„ํ•ด ๋ถ„์•ผ๋ฅผ ๋ง‰๋ก ํ•œ ํ›จ์”ฌ ๋” ๋งŽ์€ ๊ณณ์—์„œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์˜์‚ฌ๊ฒฐ์ •์— ๊ด€์‹ฌ์„ ์Ÿ๊ณ  ์žˆ์Œ์„ ๋А๊ผˆ๋‹ค. ๊ทธ๋ž˜์„œ, ์ธ๊ณผ์ถ”๋ก ์˜ ์ค‘์š”์„ฑ์€ ์•ž์œผ๋กœ ๋”๋”์šฑ ์ปค์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๊ณ  ์žˆ๋‹ค. ์•„๋‹ˆ, ์ปค์ ธ์•ผ๋งŒ ํ•œ๋‹ค. ์ธ๊ณผ์ถ”๋ก ์„ ์‹ค๋ฌด์— ๋„์ž…ํ•˜๋Š” ๊ธฐ์—…์ด ๋งŽ์•„์กŒ์œผ๋ฉด ํ•œ๋‹ค. ๊ทธ๋ž˜์•ผ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ”๋ณด๊ฐ™์€ ์˜์‚ฌ๊ฒฐ์ •์„ ๋‚ด๋ฆด ๊ฐ€๋Šฅ์„ฑ์„ ์ค„์ผ ์ˆ˜ ์žˆ์„ ํ…Œ๋‹ˆ๊นŒ.

์•Œ๋ฆผ

์•Œ๋ฆผ์ด ์—†์Šต๋‹ˆ๋‹ค