Central Dogma of Statistics
Statistical Data Distributions
- ๋ชจ๋ random variable์ ํน์ ๋น๋/ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ๋๋ค.
- ์ข ๋ฅ: binomial distribution, normal distribution, poisson distribution, power law distribution
Classical Distribution์ ์ค์์ฑ
- ์ค์ ๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ ์์
- Closed-form formula(cdf, pdf), test(t-test) ๋ฑ์ ์ด์ฉ ๊ฐ๋ฅ
- ๋ชจ์์ด ๋น์ทํ๋ค๊ณ ์ด๋ฌํ ๋ถํฌ์ ๊ฐ๋ค๊ณ ์๊ฐํ๋ฉด ์ ๋๋ค.
Binomial Distribution
- n๊ฐ์ independent trial๋ก ์ด๋ฃจ์ด์ง ์คํ -> 2๊ฐ์ง์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ผ ํจ
- ์: ๋์ ๋์ง๊ธฐ
- ๋ถํฌ: ์ด์ฐ์ ์ด๋ ์ข ๋ชจ์์ (๋๋ half-bell shape)
Normal Distribution
- ์ข ๋ชจ์์ ๊ฐ์ง
- ํค, IQ ๋ฑ.
- ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ก ๋ํ๋ผ ์ ์์.
- ๋ชจ๋ ์ข ๋ชจ์ ๋ถํฌ๊ฐ normal distribution์ ์๋๋ค.
- n์ด ๋ฌดํ๋๋ก ๋ฐ์ฐํ๋ binomial distribution
- normal distribution์ ๊ฐ๋ ๋ณ์๋ค์ ํฉ์ normalํ๋ค.
- normal distribution์ mixture๋ normalํ์ง ์๋ค.
-> ์ฌ์ฑ์ ํค, ๋จ์ฑ์ ํค ๊ฐ๊ฐ์ ์ ๊ท๋ถํฌ์ง๋ง, ์ ์ฒด ์ธ๊ตฌ์ ํค๋ ์ ๊ท๋ถํฌ๊ฐ ์๋๋ค.
Lifespan Distribution
- ๋งค์ผ๋งค์ผ์ ์์กด ํ๋ฅ ์ด p๋ผ๋ฉด, n์ผ๋์ ์์กดํ ํ๋ฅ ์ p^(n-1)*(1-p)
Poisson Distribution
- rare event์์์ interval์ ๋น๋
Power law Distribution
- ์ ์: P(X=x) = cx^(-a)
* c: normalization ์์, a: exponent
* c: a๊ฐ ์ฃผ์ด์ง๋ฉด, ํ๋ฅ ๋ค์ ํฉ์ 1์ด์ด์ผ ํ๋ฏ๋ก ํ๋์ ๊ฐ์ผ๋ก ์ ํด์ง๋ค.
- ์ ๊ท๋ถํฌ์ฒ๋ผ ์ค์์ ๋ฐ์งํ์ง ์๊ณ ์ง์์ ์ผ๋ก ์์ฃผ ํฐ ๊ฐ์ ๊ฐ๋๋ค.
- 80-20 rules: 20%์ X๊ฐ 80%์ Y๋ฅผ ๊ฐ๋๋ค. -> ๋น๋ถ ๊ฒฉ์ฐจ ๋ฑ์์ ์์์ ๋ถ์๋ค์ด ๋ถ๋ฅผ ๋ ์ํ๋ค ๋ฑ๋ฑ
ex) City Population - Power Law
: ๋ถ๋ฅผ ๊ฐ์ง ์ฌ๋์ด ์ ์ ๋ ๋ถ์๊ฐ ๋๋ค.
- x๊ฐ 2๋ฐฐ๊ฐ ๋ ๋, ํ๋ฅ ์ 2^a๋งํผ ์ค์ด๋ ๋ค.
- Power Law์ ์์
1) x๊ฐ์ ๋งํฌ๋ฅผ ๊ฐ์ง ์ธํฐ๋ท ์ฌ์ดํธ
2) ๋ฆฌํํฐ ๊ท๋ชจ์ ์ง์ง์ ๋น๋
3) ๋จ์ด ์ฌ์ฉ ๋น๋
4) x๋ช ์ ์ฃฝ์ธ ์ ์์ ์
Word Frequencies and Zipf's Law
- Zipf's law: k๋ฒ์งธ๋ก ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ๋จ์ด๋ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ๋จ์ด์ 1/k๋ฒ์งธ ๋งํผ ์ฌ์ฉ๋๋ค.
-> a = 1์ธ power law
-> 2x๋ฒ์งธ์ธ ๋จ์ด๋ x๋ฒ์งธ ๋จ์ด์ ์ฌ์ฉ ๋น๋ * 1/2
Power Law์ ํน์ฑ
- ํ๊ท ์ ์๋ฏธ๊ฐ ์๋ค.
- ํ์คํธ์ฐจ๋ ์๋ฏธ๊ฐ ์๋ค. ํ๊ท ๋ณด๋ค ํจ์ฌ ํฐ ๊ฐ์ด ์๊ธฐ ๋๋ฌธ์
- ์ค์๊ฐ์ ์๋ฏธ๊ฐ ์๋ค.
- ๋ถํฌ๋ scale invariantํ๋ค = ํ๋ํ ๋ถํฌ์ ์ผ๋ถ๊ฐ ์ ์ฒด ๋ถํฌ์ ๋ชจ์๊ณผ ๋น์ทํด ๋ณด์ธ๋ค.
ํต๊ณํ์ vs ๋ฐ์ดํฐ๋ง์ด๋
- ํต๊ณํ์: ๋ฐ์ดํฐ์์ ๋ฐ๊ฒฌํ ๊ฒ์ด ์ค์ํ์ง์ ๊ด์ฌ
- ๋ฐ์ดํฐ๋ง์ด๋: ๋ฐ์ดํฐ์์ ๋ฐ๊ฒฌํ ๊ฒ์ด ํฅ๋ฏธ๋ก์ด์ง ๊ด์ฌ
- meaningfulํ ๋ฐ๊ฒฌ: ํฐ ๋ฐ์ดํฐ์ ์์ ๊ฐํ ์๊ด๊ด๊ณ๋ ๊ฒ์ผ๋ก๋ ์ค์ํด๋ณด์ผ ์ ์์ผ๋, ๋ฌธ์ ๋ ๋ ์ธ๋ฐํ๊ฒ ๋ด์ผ ํ ์ ์๋ค.
Comparing Population Means
- T-test: ๋ ์ํ์ ํ๊ท ์ฌ์ด์ ์ฐจ์ด์ ๋ํด ํ๊ฐ
- ํ๊ท ์ด ๋ค๋ฅด๊ฑฐ๋, ํ์คํธ์ฐจ๊ฐ ๋ค๋ฅผ ๊ฒฝ์ฐ ์ฐจ์ด๋ฅผ ๊ทธ๋ฅ ํ๋จํ๊ธฐ ์ฝ๋ค.
T-test
- 2๊ฐ์ ํ๊ท ์ ์๋นํ ๋ค๋ฅด๋ค. ์ด๋จ ๋?
* ํ๊ท ์ ์ฐจ์ด๊ฐ ๋น๊ต์ ํด ๋
* ํ์คํธ์ฐจ๊ฐ ์ถฉ๋ถํ ์์ ๋
* ์ํ์ด ์ถฉ๋ถํ ํด ๋
- Welch's t-statistic
* s^2: sample variance
- t distribution table
* df: ์์ ๋ (๋ชจ์ง๋จ์ ๊ฐ์๊ฐ n๊ฐ์ผ ๋ ์์ ๋๋ n-1์ด๋ค)
* one tail์ผ ๋ t๊ฐ์ ๊ธฐ์ค์ด ๋ฎ์์ง๋ค.
* 120์ผ ๋ 1.98, ๋ฌดํ๋๋ก ๋ฐ์ฐํ๋ ๊ฒฝ์ฐ 1.96์ด ๋๋ค.
Kolmogorov-Smirnov Test (KS-test)
- ๋ ๊ฐ์ cdf ์ฌ์ด์ ์ต๋ y-distance ์ฐจ์ด๋ฅผ ์ด์ฉํด ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๋ํ๋.
- max distance between two cdfs: D(C1, C2) = max|C1(x)-C2(x)| (-∞ <= x <= ∞)
- ์ ์์์ค a์ผ ๋, D(C1, C2) > c(a)* √((n1+n2)/n1n2) ์ด๋ฉด ๋ค๋ฅธ ๋ถํฌ์ด๋ค.
* c(a): table lookup์ผ๋ก ์ฐพ์ ์ ์์
Normality Testing
- ์ด๋ก ์ ์ธ ๋ถํฌ์์ ์ํ๋ง๋ ๋ถํฌ์ ๋ํด KS-test๋ฅผ ์ํํ ์ ์๋ค.
Bonferroni Correction
- 0.05์ ํต๊ณ์ ์ ์์์ค์ ์ฐ์ฐํ ์ด ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ์ ํ๋ฅ ์ด 1/20์ด๋ผ๋ ๋ป์ด๋ค.
-> ๋ ๋์ ๊ธฐ์ค์ผ๋ก ํ๊ฐ๋์ด์ผ ํ๋ ์ด์
- n๊ฐ์ ๊ฐ์ค ๊ฒ์ ์ ํ ๋, p-value๋ a/n ์์ค์ด ๋์ด์ผ ํ๋ค. -> ๊ทธ๋์ผ a ์์ค์์ ์ ์ํ๊ฒ ๊ณ ๋ ค๋ ์ ์๋ค.
Significance of Significance
- ์ถฉ๋ถํ ํฐ ์ํ ์ฌ์ด์ฆ๋ผ๋ฉด ๊ทน๋๋ก ์์ ์ฐจ์ด๋ ๋งค์ฐ ์ ์ํ๊ฒ ์ฌ๊ฒจ์ง ์ ์๋ค.
- significance(์ ์์ฑ)์ ๋ถํฌ ์ฌ์ด์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ํ์ ํ ์ ์๋ ์ ๋๋ฅผ ์ธก์ ํ๋ ๊ฒ์ด์ง, effect size๋ importance/magnitude of difference๋ฅผ ์ธก์ ํ๋ ๊ฒ์ด ์๋๋ค.
Effect Size ์ธก์
- Pearson correlation coefficient: 0.2 = ์์ effect, 0.5 = ์ค๊ฐ, 0.8 = ํผ
- Percentage of overlap between distribution: 53% = ์์, 67% = ์ค๊ฐ, 85% = ํผ
- Cohen's d = (u- u')/sigma : small > 0.2, medium > 0.5, large > 0.8
Permutation test, p-values
- ๋ฐ์ดํฐ๋ก ๊ฐ์ค์ ์ ์ฆํ ์ ์๋ค๋ฉด, ๋๋คํ๊ฒ ์์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ ๊ฐ์ค์ด ์ ์ฆ๋์ด์ผ ํ๋ค.
- random permutation ์ฌ์ด์ ์ค์ ๋ฐ์ดํฐ ์์๊ฐ significance๋ฅผ ๊ฒฐ์ ํ๋ค.
- (์ต์ 1000๋ฒ ์ด์-p value๊ฐ ์์์ ์ธ์๋ฆฌ๊น์ง ๋์จ๋ค) permutation์ ๋ง์ด ์ํํ ์๋ก, significance๊ฐ ๋ ์ค์ํด์ง๋ค.
์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ค๋ช ํ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ๋ค.
for i=1 to n do a[i]=i;
for i=1 to n-1 do swap(a[i], a[Random[i,n]);
*Random ํจ์์์ 1~n๋ฒ์งธ ์ฌ์ด์ ๋ฐ์ดํฐ๋ฅผ ๊ณจ๋ผ์ ์์ผ๋ฉด uniformํ๊ฒ ์์ด์ง ์์ ๋ฐ์ดํฐ๊ฐ ๋๋ค.
Sampling from distributions
- ์ํ ๋ฐ์ดํฐ์์ ๋ฐ์ง๋ฆ ๊ธธ์ด์ ๊ฐ์ผ๋ก ๋๋คํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ฅด๋ฉด ์ค์์ ๋ชฐ๋ฆฌ๋ ๊ฐ์ด ๋ง์์ง๋ค.
- (x, y)๋ก ๋ฐ์ดํฐ๋ฅผ ์ฐ์ด์ผ ํ๋ค.
Sampling in One dimension
- ์ด๋ ํ ํ๋ฅ ๋ถํฌ์์๋ ์ํ๋ง์ ํ๋ ค๋ฉด cdf ํํ๋ก ๋ฐ๊ฟ์ ์ถ์ถํ๋ฉด ๋๋ค.
Statistical Hypothesis Testing
Central Limit Theorem
- random variable: ๋ ๋ฆฝ์ ์ด๊ณ ๋์ง์ ์ผ๋ก ๋ถํฌ๋ ํฐ ์์ ํ๊ท (i.i.d.)
- random variable์ ์ ๊ท๋ถํฌ ๋์ด์๋ค๊ณ ๊ทผ์ฌํ ์ ์๋ค.
- x1, ..., xn์ด μ, σ^2๋ก ๋ random variable์ด๊ณ n์ด ์์ฒญ ํฌ๋ค๋ฉด
Z = 1/n * (x1+...+xn)์ ๊ทผ์ฌ์ ์ผ๋ก ์ ๊ท๋ถํฌ๋ฅผ ๊ฐ๋๋ค. (ํ๊ท μ, ํ์คํธ์ฐจ σ^2/n)
- n์ด ์์ฒญ ์ปค์ง๋ฉด Binomial(n, p)~Normal(np, np(1-p))์ผ๋ก ๊ทผ์ฌ ๊ฐ๋ฅํ๋ค.
(n ๋ฒ์ ๋ ๋ฆฝ์ ์ธ ๋ฒ ๋ฅด๋์ด ์ํ์ ํฉ์ผ๋ก ๋ ๋๋ค ๋ณ์)
- ์ค์ฌ ๊ทนํ ์ ๋ฆฌ์ ์ค์์ฑ: ๋ค๋ฅธ ํํ์ ๋ถํฌ๋ฅผ ํฌํจํ ๋ฌธ์ ๋ฅผ ์ ๊ท๋ถํฌ ํํ๋ก ์ ์ฉ ๊ฐ๋ฅ
Statistical hypothesis testing
๋์ ๋์ง๊ธฐ์์ ๋์ ์ ์๋ฉด์ด ๊ณตํํ์ง ์์ ๋๋ฅผ ๊ฐ์ ํด๋ณด๋ฉด,
H0 (๊ท๋ฌด๊ฐ์ค, null hypothesis): ๋์ ์ ๊ณตํํ๋ค. == p=0.5์ด๋ค.
H1 (๋๋ฆฝ๊ฐ์ค, alternative hypothesis): ๋์ ์ ๊ณตํํ์ง ์๋ค. -> ์ฐ๋ฆฌ๊ฐ ์ ์ฆํ๊ณ ์ถ์ ๊ฒ
๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋์ ์ n๋ฒ ๋์ ธ์ ์๋ฉด์ด ๋์ค๋ ํ์๋ฅผ ์ผ๋ค.
- ๋งค๋ฒ์ ๋์ ๋์ง๊ธฐ๋ Bernoulli trial์ด๋ฏ๋ก, X๋ Binomial(n, p)์ด๋ค.
- CLT์ ์ํด X๋ Normal(np, np(1-p))๋ก ๊ทผ์ฌ๋ ์ ์๋ค.
- ์ ์ ์์ค์ ๊ฒฐ์ : 1์ข ์ค๋ฅ (False Positive) ๋ฅผ ํ์ฉํ ๋ฒ์
- ์ ์์์ค์ 0.05๋ก ๊ฒฐ์ ํ๋ค๊ณ ํ์ ๋, ๋ง์ฝ ์๋ฉด์ด 532๋ฒ ๋์๋ค๊ณ ํ๋ฉด, 4.63%์ ์ํ๋ ๋ฒ์์ด๋ค. -> ์ ์ํ ์์ค์ ๊ฒฐ๊ณผ์ด๋ฏ๋ก H0์ ๊ธฐ๊ฐํ๊ณ H1์ ์ฑํํ๋ค.
Error์ ์ข ๋ฅ
๊ท๋ฌด๊ฐ์ค์ ์ฐธ/๊ฑฐ์ง ์ฌ๋ถ | |||
์ฐธ | ๊ฑฐ์ง | ||
H0(๊ท๋ฌด๊ฐ์ค)์ ๋ํ ํ๋จ | ๊ธฐ๊ฐ (positive call) | 1์ข ์ค๋ฅ (False Positive) | ์ ๋ต (True Positive) |
๊ธฐ๊ฐ ์คํจ (negative call) | ์ ๋ต (True Negative) | 2์ข ์ค๋ฅ (False Negative) |
Statistical Hypothesis Testing with p-value
- P-value: ํ๋ฅ (๊ท๋ฌด๊ฐ์ค(H0)์ด ์ณ๋ค๊ณ ํ๋จ)
- ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ ์ ์์์ค์ 0.05 ๋๋ 0.01๋ก ์ค์
- X = 530 ์ผ ๋, p-value = 0.062, X = 532์ผ ๋ p-value = 0.0463
Confidence interval : ์ ๋ขฐ๊ตฌ๊ฐ
1000๋ฒ ์ค 529๋ฒ ์๋ฉด์ ๋ณด์์ ๋, p=0.529์ด๋ค.
p_hat = 0.529
sigma_hat = math.sqrt(p_hat*(1-p_hat)/1000)
print normal_two_sided_bounds(0.95, p_hat, sigma_hat) # 0.95 = ์ ์์์ค
>>> [0.498, 0.560]
# ์ค์ p๋ ์ด ๊ตฌ๊ฐ ์์ 95% ํ๋ฅ ๋ก ์กด์ฌํ๋ค.
Example: Running an A/B test
- 2๊ฐ์ ๊ด๊ณ ์ค ํด๋ฆญ์ ๋ ๋ง์ด ์ ๋ํ๋ ๊ด๊ณ ๋ฅผ ์ ํํด์ผ ํจ.
- Na = A ๊ด๊ณ ๋ฅผ ๋ณด๋ ์ฌ๋์ ์, na = A ๊ด๊ณ ๋ฅผ ํด๋ฆญํ๋ ์ฌ๋์ ์, pa = A ๊ด๊ณ ๋ฅผ ํด๋ฆญํ ํ๋ฅ
-> na/Na๋ Normal(pa, pa(1-pa)/Na)๋ก ๊ทผ์ฌ๋ ์ ์๋ค. (์ด์ : ๋ฒ ๋ฅด๋์ด ์ํ์ n ๋ฒ ๋ฐ๋ณตํ ๊ฒ์ด๋ฏ๋ก)
-> nb/Nb๋ Normal(pb, pb(1-pb)/Nb)๋ก ๊ทผ์ฌ๋ ์ ์๋ค.
- 2๊ฐ์ ๋ถํฌ๋ ๋ ๋ฆฝ์ ์ด๋ฏ๋ก ๋ ๊ฐ์ ์ฐจ์ด๋ normal ํด์ผ ํ๋ค.
- H0์ pa=pb๋ผ๊ณ ๊ฐ์ ํด์ ๊ฒ์ ํ ์ ์๋ค.
- ์ ์์์ค์ 0.05๋ผ๊ณ ๊ฐ์ ํ๊ณ ํด๋ณด์.