Exploratory Data Analysis
- ๋ฐ์ดํฐ๋ฅผ ์์ธํ ์ดํด๋ณด๋ ๊ฒ์ด ์ค์ํ ์ด์
* ๋ฐ์ดํฐ ์์ง, ์ ์ฒ๋ฆฌ์์์ ์ค์ ๊ตฌ๋ณ
* ํต๊ณ์ ๊ฐ์ ์ ์ด๊ธฐ๋ ๊ฒฝ์ฐ๋ฅผ ํ์
* ๋ฐ์ดํฐ ํจํด ํ์
* ๊ฐ์ค ์ค์
Anscombe's Quartet
- ๊ฐ์ ํ๊ท , ํธ์ฐจ, ์๊ด๊ด๊ณ, ํ๊ท์ง์ ์ ๊ฐ์ง์ง๋ง ๋ฐ์ดํฐ์ ๋ถํฌ ๋ชจ์ ์์ฒด๊ฐ ๋งค์ฐ ๋ฌ๋ผ์ง ์ ์์.
Mapping Data to Image
- ํจ์จ์ฑ ์์: ์์น > ๊ธธ์ด > ๊ธฐ์ธ๊ธฐ, ๊ฐ๋ > ๋ฉด์ > ์ ์งํ๊ธฐ > ์, ๋ชจ์
- ๋ฉด์ , ์ ์งํ๊ธฐ ๋ฐ์ดํฐ๋ ordinal data์ ์ฌ์ฉ ๊ฐ๋ฅ
- ์๊ทธ๋ํ๋ ๋ฉด์ ๊ณผ ๊ฐ๋๋ฅผ ๊ฐ์ด ์ฌ์ฉํ์ง๋ง, ๋๋ ๊ทธ๋ํ๋ ๊ฐ์ด๋ฐ๊ฐ ๋น์ด์์ผ๋ฏ๋ก ๊ฐ์ด ์๋ต๋ ํํ๋ค.
- ๊ฐ์ฅ ๋นํจ์จ์ ์ธ ์๊ฐํ ์ฌ๋ก
- ์์ ์ฐ์ ์์๋ฅผ ๊ฒฐ์
- ์ง๋์น๊ฒ ๋ณต์กํ ์๊ฐํ๋ ์ข์ง ์๋ค. (ํ๋์ ๊ทธ๋ฆผ์ ๋๋ฌด ๋ง์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๊ฒฝ์ฐ, ์ ์์๋ฅผ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ ๋ฑ๋ฑ)
Tufte's Design Principle
1. Maximize data ink-ratio
- data-ink ratio = data ink / total ink used in graphic
- ์ด ๊ฐ์ด ์ต๋ํ 1์ ๊ฐ๊น์์ ธ์ผ ํ๋ค.
- ์์: 3D ๋ง๋ ๊ทธ๋ํ๋ฅผ 2D๋ก ๋ณํํ๊ณ , ๊ทธ๋ฆผ์๋ฅผ ์ ๊ฑฐํ๋ค.
2. Minimize lie factor
- Lie factor = size of effect shown in graphic / size of effect in data -> 1์ ๊ฐ๊น์์ ธ์ผ ํ๋ค.
- ์ค์ ๋ณด๋ค ๊ณผ์ฅํ์ฌ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๊ฒฝ์ฐ
- 3D ๊ทธ๋ํ๋ฅผ ํ์ฉํ์ฌ ๊ฐ์ ๋นํด ๊ทธ๋ฆผ์ด ๋ ์ปค๋ณด์ด๋ ๊ฒฝ์ฐ
3. Minimize chartjunk
- ๋ถํ์ํ ์ฐจ์, ์ ๋ณด ์ ๋ฌ์ฉ์ด ์๋ ์ ์ ํ๊ธฐ, ๊ณผ๋ํ ๊ฒฉ์๋ฌด๋ฌ ๋ฐ ๋ฐ์ฝ๋ ์ด์ ๋ฑ์ ์ ๋ณด์ ๋ฌ์ ๋ฐฉํด๊ฐ ๋๋ ์์.
- ๊ฒฉ์ ์ ๊ฑฐ, ๋ฐฐ๊ฒฝ์ ์ ๊ฑฐ, ํ ๋๋ฆฌ ์ ๊ฑฐ ๋ฑ์ผ๋ก ์๊ฐํํ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ๋ง๋ค์.
- ๋๊ธ์ ๊ฒฝ์ฐ ๋ง๋๊ทธ๋ํ ์์ ํ์ํ๋ ๋ฑ ํด์ ๋ ์ค์ผ ์ ์์.
- Matplotlib ๋ฑ์ ์ด์ฉํ ์ ์๋ค.
4. Use proper scales and clear labeling
- Scale Distortion: ๋๊ธ์ 0๋ถํฐ ์์ํ์ง ์๊ณ ์ํ๋ ๊ฐ์ ํฌ์ปค์ค๋ฅผ ๋ง์ถฐ์ ์ค์ ๋ณด๋ค ์ฐจ์ด๋ฅผ ๋ ํฌ๊ฒ ๋ง๋ค์ด๋ฒ๋ฆผ.
ex) Bush Tax cuts expire~ -> ๋๊ธ์ ํญ์ 0๋ถํฐ ์์ํ๋๋ก ํ์.
์๊ฐํ ํ์ ์ข ๋ฅ
1. Bar Chart
2. Line Chart: ์๊ฐ์ ๋ฐ๋ฅธ ํธ๋ ๋์ ๋ณํ
* Bar vs. Line: Line์ ์ฐ๊ฒฐ์ ์๋ฏธ๋ฅผ ๊ฐ๊ณ ์์ผ๋ฏ๋ก, Categorical data์ ์ฌ์ฉํ๋ฉด ์ ๋๋ค.
* book rating์ ๋น๊ตํ๊ธฐ ์ํด์ bar chart๋ฅผ ์ฌ์ฉํ์ง ๋ง๋ผ.
* Banking to 45º: 2๊ฐ์ line segment๋ 45๋์ ๊ฐ์ ๊ฐ๊น์์ง์๋ก ๊ตฌ๋ณ์ด ์ ๋๋ค.
* ๋๋ฌด ํ๋ซํ ๊ทธ๋ํ๋ stiffํ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด ๊ฒฝ์ฐ ๊ทธ๋ํ๋ฅผ ์๋ชป ํด์ํ๊ฒ ๋ ์ ์์ผ๋ฏ๋ก, 45๋๋ฅผ ์ ์งํ์.
3. Scatter Plots / Bubble Charts
- Scatter plot์ ๊ฐ๊ฐ์ ์ ์ ๊ฐ์ 2D์์ ๋ณด์ฌ์ฃผ๋ ๋ฐ ํจ๊ณผ์
- 3, 4๊ฐ์ ๋ณ์๋ฅผ ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ์ ์ bubble chart๋ฅผ ์ด์ฉ
- principle component analysis๋ฅผ ํตํด ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ 2D๋ก ํฌ์ํ ์ ์๋ค.
- ์ ์ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์ปค์ง๋ฉด overplotting์ด ๋ฐ์ํ๋ฏ๋ก ์ ์ ํฌ๊ธฐ๋ฅผ ์ค์ด์.
- ์ ์ด ํ ๊ตฐ๋ฐ์ ๋๋ฌด ๋ชฐ๋ฆฌ๋ฉด Overplotting์ด ๋ฐ์ํ๋ฏ๋ก ๋ถํฌ๋ช ๋๋ฅผ ๋ฎ์ถ์.
- heatmap: ๋น๋์ ๋ฐ๋ผ์ ์์ ๋ฌ๋ฆฌํ๋ฉด ์๋ฃ๋ฅผ ํ์ ํ๊ธฐ ๋ ์ฝ๋ค.
- ์ ์ ํฌ๊ธฐ, ๋ชจ์, ์์ ๋ฌ๋ฆฌํ์ฌ 3์ฐจ์์ ์๋ฃ๋ฅผ ์๊ฐํํ ์ ์๋ค. -> Bubble Chart
* 3์ฐจ์์ ๋ฐ์ดํฐ๋ผ๊ณ 3D ๊ณต๊ฐ์ ๋ํ๋ด๋ฉด ์ ๋๋ค. ์ฐจ์ ์ถ์๋ฅผ ํ์.
4. Pie Chart
- Pie Chart vs. Bar Chart
* Pie Chart๋ ๋น์จ์ ๋ํ ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ํธ๋ฆฌํ๋ค.
* Bar Chart๋ ์ค์ ๊ฐ์ ๋ํ ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ํธ๋ฆฌํ๋ค.
5. Donut Chart
- ๋ฉด์ ๋ง ์์ผ๋ฏ๋ก pie chart์ ๋นํด ๊ฐ๋ ์ฑ์ด ๋จ์ด์ง๋ค.
6. Stacked Bar Chart
7. Stacked Area Chart
- Stacked Area Chart vs Line Graphs
* Stacked Area Chart์์๋ ๊ฐ๊ฐ์ ์ฑ๋ถ์ด ์ฐจ์งํ๊ณ ์๋ ๋น์จ ๋ณํ๋ฅผ ํ์ ํ๊ธฐ ์ฝ๋ค.
* Line Chart์์๋ ๊ฐ๊ฐ์ ์ฑ๋ถ์ ์ ๋๊ฐ์ ํ์ ํ๊ธฐ ์ฝ๋ค.
8. Histograms
- Bin Size๊ฐ ์ค์ํ๋ค.
- Count๊ฐ ์ค์ํ๋ค.
- ๋๋ฌด ์๊ฒ ์ชผ๊ฐ๋ฉด ๊ฐ์ ๋ถํฌ๊ฐ ์ ๋๋ฌ๋์ง ์์ ์๋ ์๋ค.
- Frequency vs. Density Histograms
* ๊ฐ ํญ๋ชฉ์ ์๋ฅผ ์ ์ฒด ์๋ก ๋๋๋ฉด ํ๋ฅ ๋ฐ๋ plot์ ๋ง๋ค ์ ์๋ค. -> ๋ ํด์ํ๊ธฐ ์ฝ๋ค.
9. Heat Maps
10. Box & Whisker Plots
- max, min, 4๋ถ์์, ์ค์๊ฐ ๋ฑ์ ํ์ ํ ์ ์๋ ์๋ฃ
๋ฐ์ดํฐ ์๊ฐํ๋ฅผ ์ํ ํด
- Excel: ๊ฐ์ฅ ์ ๋ช ํ์ง๋ง ์ข์ ๊ทธ๋ํ๋ฅผ ๋ง๋๋ ๊ฒ์ ์๋.
- R: ํต๊ณ์ธ์ด
- Matplotlib: ํ์ด์ฌ
Multivariate Data๋ฅผ ๋ํ๋ด๊ธฐ
- ์์ ์ฌ๋ฌ ๊ฐ์ plot์ ๋ง๋ค์ด์ ํํํ๋ ๊ฒ์ด ์ข์ ๋ฐฉ๋ฒ์ด๋ค.
- ์: ๊ตญ๊ฐ๋ณ ์ธ๊ตฌ ๋ถํฌ -> ๊ตญ๊ฐ๋ณ๋ก ์ธ๊ตฌ ๋ถํฌ๋ฅผ ๋ง๋ค์ด์ ํ๋์ ๊ทธ๋ฆผ์ ํฉ์น๋ค.
Overinterpreting Variance
- ๋ ๋ถ๋ถ ๋ฐ์ดํฐ๊ฐ ์๋์น๋ ์ด์ : gene๋ง๋ค size๊ฐ ๋ชจ๋ ๋ค๋ฅด๊ธฐ ๋๋ฌธ!
-> size๊ฐ ํฐ gene์ด ๋ง์ง ์์์ ๊ฒฝํฅ์ ํ์ ํ๊ธฐ ์ด๋ ค์.
๋นํ์ ์๊ฐ์ผ๋ก ๋ฐ๋ผ๋ณด๊ธฐ: ์์ ๋ฐ์ดํฐ๋ ์์ ์๊ฐํ๋ฅผ ๋์ถํด๋ธ๋ค.