profile-img
The merit of an action lies in finishing it to the end.
slide-image

๋‹ค์ค‘๊ณต์„ ์„ฑ์ด๋ž€?

ํšŒ๊ท€๋ถ„์„์„ ํ•  ๋•Œ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค๊ณ  ํ•˜๋Š”๋ฐ, ๊ณผ์—ฐ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ?

๋‹ค์ค‘๊ณต์„ ์„ฑ(Multicollinearity)๋Š” ํšŒ๊ท€๋ถ„์„ ์‹œ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ๊ฐ•ํ•œ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋‚˜ํƒ€๋‚  ๋•Œ๋ฅผ ์ผ์ปซ๋Š” ์šฉ์–ด๋‹ค. ๋งŒ์•ฝ ๋ณ€์ˆ˜๋“ค ๊ฐ„ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ๋†’๋‹ค๊ณ  ํŒ๋‹จ๋˜๋ฉด, ์ด ๋ณ€์ˆ˜๋“ค์€ ๋”์ด์ƒ ๋…๋ฆฝ๋ณ€์ˆ˜๋ผ๊ณ  ๋ณด๊ธฐ ์–ด๋ ต๋‹ค. ํšŒ๊ท€๋ถ„์„์˜ ์ „์ œ์ธ ๋…๋ฆฝ๋ณ€์ˆ˜ X๋“ค์„ ํ†ตํ•ด Y๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค๋Š” ๊ฐ€์ •์ด ์„ฑ๋ฆฝํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜๋ฏ€๋กœ ๋‹ค์ค‘๊ณต์„ ์„ฑ์€ ํšŒ๊ท€๋ถ„์„์˜ ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜๋กœ ์†๊ผฝํžŒ๋‹ค.

 

VIF

Variance Inflation Factor์˜ ์•ฝ์ž์ธ VIF๋Š” ํ•œ๊ตญ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋ฉด ๋ถ„์‚ฐ ํŒฝ์ฐฝ ์ธ์ˆ˜๋‹ค. ์ด ๊ฐ’์€ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ํŒ๋‹จํ•˜๊ธฐ ์œ„ํ•œ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋˜๋ฉฐ ๊ณ„์‚ฐ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

r_i๋Š” i๋ฒˆ์งธ ๋ณ€์ˆ˜๋ฅผ ์ œ์™ธํ•œ ํšŒ๊ท€์‹์˜ R^2๊ฐ’์ด๋‹ค.

๋ณดํ†ต VIF ๊ฐ’์ด 10์„ ์ดˆ๊ณผํ•˜๋ฉด ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ์ œ๊ฑฐํ•œ๋‹ค. ์™œ ํ•˜ํ•„ 10์ผ๊นŒ?

VIF > 10 ์‹์„ ์œ„์— ๋‚˜์˜จ ์ˆ˜์‹์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๊ณ„์‚ฐํ•  ๊ฒฝ์šฐ, r_i > 0.9 ๋ผ๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜จ๋‹ค. ์ฆ‰ i๋ฒˆ์งธ ๋ณ€์ˆ˜๊ฐ€ ์‹์—์„œ ๋น ์ ธ๋„ ๋‚˜๋จธ์ง€๊ฐ€ Y๋ฅผ 90% ์ด์ƒ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ด๋‹ค. ์ฆ‰ ์ œ๊ฑฐํ•ด์„œ ๋‹ค๋ฅธ ๊ฐ’๋“ค๋กœ ๋Œ€์ฒดํ•ด๋„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์˜ˆ์ธก์ด ๋‹ฌ๋ผ์ง€์ง€ ์•Š๋Š”๋‹ค.

 

VIF in python

ํŒŒ์ด์ฌ์—์„œ VIF๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“ˆ์„ ์ด์šฉํ•œ๋‹ค.

from statsmodels.stats.outliers_influence import variance_inflation_factor as vif

ํŠน์ • ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์—์„œ ๋…๋ฆฝ๋ณ€์ˆ˜๋ณ„๋กœ VIF๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

vif_factors = [vif(X.values, i) for i in range(0, X.shape[1])]
vif_report = pd.DataFrame({"variable": X.columns, "VIF Factors": vif_factors})

vif_report๋Š” ๊ฐ ๋…๋ฆฝ๋ณ€์ˆ˜๋ณ„ VIF๊ฐ€ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์ด๋ฏ€๋กœ, ์ด๋ฅผ ํ™•์ธํ•˜๋ฉด ์–ด๋–ค ๋…๋ฆฝ๋ณ€์ˆ˜์˜ VIF๊ฐ€ ํฐ์ง€ ์ž‘์€์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๊ฒƒ์„ ๋ณด๊ณ  VIF๊ฐ€ 10์„ ์ดˆ๊ณผํ•œ๋‹ค๋ฉด ๊ฐ’์„ ์ œ๊ฑฐํ•˜๋ฉด ๋œ๋‹ค.

 

๋‹ค๋ฅธ ํšŒ๊ท€๋ถ„์„์—์„œ๋„ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ๊ณ ๋ คํ•ด์•ผ ํ• ๊นŒ?

์ด ๋ถ€๋ถ„์— ๋Œ€ํ•ด์„œ ๋ช…ํ™•ํ•œ ๋‹ต์„ ์ฐพ์ง€ ๋ชปํ–ˆ๋‹ค. ์ธํ„ฐ๋„ท ์ž๋ฃŒ๋ฅผ ๋’ค์ ธ๋ด๋„ ์„ ํ˜•ํšŒ๊ท€๋ฅผ ์ œ์™ธํ•œ ๋‹ค๋ฅธ ํšŒ๊ท€๋ถ„์„(์˜ˆ๋ฅผ ๋“ค์–ด ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€)์— ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ๊ณ ๋ คํ•ด์•ผํ•˜๋Š”์ง€์— ๊ด€ํ•œ ๋ฌธ์ œ์— ๋ชจ๋‘ ๋‹ค๋ฅธ ๋‹ต์„ ๋‚ด๋†“์•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๊ทธ๋ ‡์ง€๋งŒ ๋‹ค์ค‘๊ณต์„ ์„ฑ์˜ ๋ณธ์งˆ๊ณผ ํšŒ๊ท€๋ถ„์„์˜ ๊ฐ€์ •์„ ์ƒ๊ฐํ•ด๋ณธ๋‹ค๋ฉด, ๋‹ค์ค‘๊ณต์„ ์„ฑ์œผ๋กœ ์ธํ•ด ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ๋…๋ฆฝ์„ฑ์ด ๋ณด์žฅ๋˜์ง€ ์•Š์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋ฏ€๋กœ, ๋ชจ๋“  ํšŒ๊ท€๋ถ„์„์—์„œ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ๊ณ ๋ คํ•ด์•ผ ํ•  ๊ฒƒ์ด๋ผ๊ณ  ํŒ๋‹จํ•˜์˜€๋‹ค.

์‚ฌ์‹ค ๋‚ด ๋ง์ด ์˜ณ์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ ๋…ผ๋ฌธ ๊ฐ™์€ ์ž๋ฃŒ๋ฅผ ๋” ์ฐพ์•„๋ณผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

'CS study/๋จธ์‹ ๋Ÿฌ๋‹' Related Articles +