Linear Regression
- n๊ฐ์ ์ ์ด ์ฃผ์ด์ก์ ๋, ๊ฐ์ฅ ๊ทผ์ฌ๋ฅผ ์ ํ๊ฑฐ๋ ์ ๋ง๋ ์ง์ ์ ์ฐพ๋ ๊ฒ
Error in Linear Regression
- residual error: ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ์ฐจ์ด
- Least squares regression์ ๋ชจ๋ ์ ์ ์์ฐจ์ ํฉ์ ์ต์ํํจ.
-> nice closed form, ๋ถํธ ๋ฌด์ํ๋ฏ๋ก ์ ํ๋จ
Contour plots - gradient descent
Linear function์ ์ฌ์ฉํ๋ ์ด์
- ์ดํดํ๊ธฐ ์ฌ์
- default model์ ์ ํฉ
* ์ผํ ์๊ฐ์ ๋ฐ๋ผ ๊ธ์ฌ๊ฐ ์ฆ๊ฐ / ์ง์ญ์ด ์ปค์ง์ผ๋ก์จ ์ ํ์ ์ผ๋ก ์ง๊ฐ์ด ์์น / ๋จน์ ์์์ ๋ฐ๋ผ ๋ชธ๋ฌด๊ฒ๊ฐ ์ ํ์ ์ผ๋ก ์ฆ๊ฐ
๋ณ์๊ฐ ์ฌ๋ฌ ๊ฐ์ผ ๋
- ๊ฐ๊ฐ์ x_n ๋ณ์๋ค๊ณผ y๊ฐ์ ํ๋ ฌ๋ก ๋ํ๋ด์ด ์ธํ ๊ฐ์ ๋ํ ํ๋ ฌ์ ๊ตฌํ ์ ์๋ค.
๋ ๋์ ํ๊ท ๋ชจ๋ธ
1. ์ด์์น ์ ๊ฑฐ
- ์์ฐจ์ quadratic weight ๋๋ฌธ์ ์ด์์น๋ ํ๊ท ๋ชจ๋ธ์ fit์ ์ํฅ์ ์ค ์ ์๋ค.
- ์ด๋ฌํ ์์ฐจ๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ ์ ํฉํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค.
2. nonlinear function fitting
- ๊ธฐ๋ณธ์ ์ผ๋ก Linear regression์ ์ง์ ์ด์ง๋ง, x^2, sqrt(x) ๋ฑ์ ์ด์ฉํ๋ฉด ๊ณก์ ์ ๋ง๋ค ์ ์๋ค.
- ์์๋ก polynomial, exponential, logarithm ๋ฑ์ ์ ์ฉํ ์ ์๋ค.
cf) ๋ฅ๋ฌ๋์ raw feature์์ ์ค์ค๋ก ์ํ๋ ๊ฒ์ ๋ฝ์๋ผ ์ ์์ด feature engineering์ ๋ํ ์์๊ฐ ์ ๋ค. ์ต๊ทผ์๋ prompt engineering์ ์ค์ํ๊ฒ ์ฌ๊ธด๋ค.
3. feature/target scaling
- ๋์ ๋ฒ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๊ฒ ๋๋ฉด coefficient๊ฐ ์ง๋์น๊ฒ ์ปค์ง ์ ์๋ค.
- Z-score ๋ฑ์ผ๋ก ์ค์ผ์ผ์ ์กฐ์ ํ ํ์๊ฐ ์๋ค.
- power law์ด ์ ์ฉ๋๋ ์์ ๋ฑ์ ๋ฐ์ดํฐ์์๋ ํนํ ์ค์ํ๋ค.
- x๊ฐ์ log(x), sqrt(x) ๋ฑ์ผ๋ก ๋์ฒดํ ์ ์๋ค.
- feature๊ฐ ์ ๊ท๋ถํฌ ํํ๋ผ๋ฉด, power law distribution์ ๊ฐ๋ ๋ฐ์ดํฐ๋ linearํ ์กฐํฉ์ผ๋ก ๋ํ๋ด๊ธฐ ์ด๋ ต๋ค.
- Z normalization์ผ๋ก ๋ณํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ํ, ๊ฒฐ๊ณผ๋ ์๋ ์ํ๋ก ๋๋ ค๋ ํ ๋ํ๋ด๋ฉด ๋๋ค.
4. highly correlated variable ์ ๊ฑฐ
- ๋ ๋ฐ์ดํฐ๊ฐ ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋๋ค๋ฉด ๋ ์ด์ ์ฐ๋ฆฌ์๊ฒ ์ค ์ ์๋ ์ ๋ณด๊ฐ ์๋ค. ์คํ๋ ค ํผ๋์ ๊ฐ์ค์ํด.
--> ๋ฐ๋ผ์ ์ ๊ฑฐํด๋ ๋๋ค.
- covariance matrix๋ฅผ ์์ฑํ์ฌ ์ ๊ฑฐํด์ผ ํ๋ feature๋ฅผ ์ฐพ์ ์ ์๋ค.
Closed form solution์ ๋ฌธ์
- ์ธํ ๊ฐ์ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ํฐ ๋ฐ์ดํฐ์์๋ ์ฐ์ฐ ์๋๊ฐ ์์ฒญ ๋๋ ค์ง๋ค. - O(n^3)
- linear algebra๋ ๋ค๋ฅธ ๊ณต์์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
- gradient descent ๋ฐฉ์์ ์ ํํ๊ฒ ๋ง๋ ๋ค.
Lines in Parameter Space
- error function J๋ convexํ๋ค.
Gradient Descent Search
- convex: 1๊ฐ์ local/global minima ๋ฅผ ๊ฐ๋ ๊ณต๊ฐ
- convexํ ๊ณต๊ฐ์์๋ minima๋ฅผ ์ฐพ๊ธฐ ์ฝ๋ค. -> ๊ทธ๋ฅ ๊ฒฝ์ฌ๋ฅผ ๋ฐ๋ผ์ ๋ด๋ ค๊ฐ๊ธฐ๋ง ํ๋ฉด ์ฐพ์ ์ ์๋ค.
- ์ด๋ค ์ ์์ ๋ด๋ ค๊ฐ๋ ๋ฐฉํฅ์ ์ฐพ๋ ๋ฐฉ๋ฒ์, ๋ฏธ๋ถ์ ํด์ tangent line์ ๋ฐ๋ผ ๊ฐ๋ฉด ๋จ
--> (x+dx, f(x+dx))์ ์ ์ฐพ์ ํ, (x, f(x)) ์ ์ fit
Batch Gradient Descent
- Batch: ๊ฐ๊ฐ์ ๊ฒฝ์ฌํ๊ฐ์์ ๋ชจ๋ training sample์ ์ฌ์ฉํ๋ ๊ฒ
- ํต์์ ์ผ๋ก๋ batch size๋ฅผ ์ค์ฌ๊ฐ๋ฉฐ ๊ฒฝ์ฌํ๊ฐ
Local Optima
- J๊ฐ convex๊ฐ ์๋๋ผ๋ฉด, ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋ฐ๋ผ ๊ฐ์ ๋, Local optima์ ๋น ์ ธ๋ฒ๋ฆด ์ ์๋ค.
Effect of Learning Rate / Step Size
- ๋๋ฌด ์์ ์คํ ์ผ๋ก ์์ง์ด๋ฉด optima์ convergenceํ๋ ์๋๊ฐ ๋ฆ๋ค.
- ๋๋ฌด ํฐ ์คํ ์ผ๋ก ์์ง์ด๋ฉด ๋ชฉํ์ ๋๋ฌํ์ง ๋ชปํ ์ ์๋ค.
- ์ ์ ํ step size๋ฅผ ๊ตฌํ๋ ค๋ฉด?
-> step size๊ฐ ์ ์ ํ์ง ํ๋จํ๊ณ , ๋๋ฌด ๋ฆ๋ค๋ฉด multiplicative factor (3์ ์ง์๋ฐฐ ๋ฑ๋ฑ) ๋ฅผ ์ด์ฉํ์ฌ ๋๋ ค๋ณด๊ธฐ
-> ๋๋ฌด ํฌ๋ค๋ฉด (1/3์ ์ง์๋ฐฐ ๋ฑ) ์ค์ฌ๋ณด๊ธฐ
Stochastic Gradient Descent
- batch size๋ hyperparameter์ด๋ค.
- ๋ชจ๋ example์ด ์๋ ์ผ๋ถ๋ง ์ด์ฉํ์ฌ derivative๋ฅผ ๊ณ์ฐํ๋ ๊ฒ๋ ๋ฐฉ๋ฒ
Regulation
- J ํจ์์ coefficient๊ฐ ์๊ฒ ์ ์ง๋๋๋ก ๋๋ค ๊ฐ์ ์ถ๊ฐ
- ๋๋ค ๊ฐ์ด 0์ ๊ฐ๊น์์ง๋ฉด error๋ ๊ฐ์ํ๊ณ , ๋ฌดํ๋์ ๊ฐ๊น์์ง๋ฉด thetha_0๋ง ์์ ๋จ๊ฒ ๋๋ค.
- ๋ฐ์ดํฐ์ ์ต๋ํ ๊ฐ๊น๊ฒ ์์ ๋ง๋ค๋ฉด error๋ ๊ฐ์ํ์ง๋ง, ์ ๊ณต์์์ ํ๋ ๋ถ๋ถ์ ์ปค์ง๋ค.
Interpreting/Penalizing Coefficients
- Squared coefficient์ ํฉ์ Penalizing ํ๋ ๊ฒ์ ridge regression or Tikhonov regularization
- coefficient์ ์ ๋๊ฐ์ penalizingํ๋ ๊ฒ์ LASSO regression์ด๋ค.
* L1 metric
* L2: ๊ฐ ์ฐจ์์ ๋ํ ์ ๊ณฑ์ ํฉ -> ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ
LASSO (Least Absolute Shrinkage and Selection Operator)
- sparse solution์ ์ ํํ๋ ๊ฒฝํฅ
- ๋ณ์ ์ ํ ๋ฐ regularization ๊ธฐ๋ฅ
- interpretability๋ฅผ ํฅ์
What is right Lambda?
- ๋๋ค๊ฐ ์ปค์ง๋ฉด small parameter๋ฅผ ๊ฐ์กฐ -> ex) set to all zeros
- ๋๋ค๊ฐ ์์์ง๋ฉด training error ๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ๋กญ๊ฒ ์ด์ฉํ ์ ์์
- ์ค๋ฒํผํ /์ธ๋ํผํ ์ฌ์ด ๊ท ํ์ ์ ์งํด์ผ ํจ
Normal form with regulation
- Normal form equation์ regularization์ ๋ค๋ฃจ๊ธฐ ์ํด ์ผ๋ฐํ๋ ์ ์๋ค.
- ๋๋ ๊ฒฝ์ฌํ๊ฐ์ ์ด์ฉํ ์๋ ์๋ค.
Classification
- ๋ถ๋ฅ๋ ๋จ์/์ฌ์, ์คํธ/์ผ๋ฐ๋ฉ์ผ, ์ ์ฑ/์์ฑ ์ข ์ ๋ฑ์ ๊ตฌ๋ถ์ ์ด์ฉ
- input record์ ๋ผ๋ฒจ์ ๋ถ์ฌ
Regression for Classification
- linear regression์ ์ด์ฉํ์ฌ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
- ์ด๋ ๊ฐ๊ฐ์ ๋ถ๋ฅ์ ๋ํด 0/1์ ์ด์ง ๋ถ๋ฅ๋ฅผ ์ฌ์ฉํ๋ค.
- positive = 1, negative = 0
- regression ์ ์ ์ด๋ฌํ ๋ถ๋ฅ๋ฅผ ๋๋ ๊ฒ์ด๋ค.
- ๊ทน๋จ์ ์ธ +, - ์ฌ๋ก๋ฅผ ์ถ๊ฐํ ๊ฒฝ์ฐ ์ ์ด ๋ฐ๋๋ค.
Decision Boundaries
- Feature space์์ ์ ์ ํตํด ํด๋์ค๋ฅผ ๋ถ๋ฅํ ์ ์๋ค.
- Logistic Regression: ๊ฐ์ฅ ์ ํฉํ ๋ถ๋ฅ ์ ์ ์ฐพ๊ธฐ ์ํ ๋ฐฉ๋ฒ
Cost for Positive/Negative Cases
- ์ธํ ๊ฐ์ ์ค์ด๋ ๊ฒ์ด ๋ชฉํ์
- ์๋ก์ด x์ ๋ํ ์์ธก
Logistic Regression via Gradient Descent
- loss function์ด convexํ๋ฏ๋ก, ๊ฒฝ์ฌ ํ๊ฐ์ ํตํด ๊ฐ์ฅ ์ ํฉํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ ์ ์๋ค.
-> ๋ฐ๋ผ์ ๋ ํด๋์ค์ ๋ํ linear seperator๋ฅผ ์ฐพ์ ์ ์๋ค.
Logisitc Gender Classification
Classification์ ๋ฌธ์
1. Balanced Training Classes
- ๊ธ์ ๋ผ๋ฒจ์ ๊ฐ์ง ๋ฐ์ดํฐ๊ฐ 1๊ฐ๊ณ ๋ถ์ ๋ผ๋ฒจ์ ๊ฐ์ง ๋ฐ์ดํฐ๊ฐ 10๋ง๊ฐ ์๋ค๋ฉด ์ฌ๋ฐ๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ์ ์๋ค.
- ๊ฐ๊ฐ์ ๋ผ๋ฒจ ๋ฐ์ดํฐ ์๋ฅผ ๋ง์ถ์.
* minority class์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ธฐ ์ํด ๋ ๋ ธ๋ ฅํ๊ธฐ
* ๋ ํฐ class์ ์์๋ฅผ ๋ฒ๋ฆฌ๊ธฐ
* minority class์ ๊ฐ์ค์น ๋ถ์ฌ -> overfitting ์กฐ์ฌํ๊ธฐ
* small class์ ๋ํด ๋ฐ์ดํฐ๋ฅผ ๋ณต์ ํ๊ธฐ -> random perturbation (๋ณต์์ถ์ถ๋ก ์ฌ๋ฌ๊ฐ ๋ฝ์์ ์์๋ธ ์งํ)
2. Multi-Class Classifications
- ๋ชจ๋ ๋ถ๋ฅ๊ฐ ์ด์ง์ ์ด์ง๋ ์์.
- ordering ๊ด๊ณ๊ฐ ์๋ ๋ถ๋ฅ์ ๋ํด์๋ ๋จ์ํ ์ซ์๋ก ํํํ์ฌ ๋ถ๋ฅ๋ฅผ ์งํํ๋ฉด ์ ๋๋ค.
- ordinal data์ ๋ํด์๋ง ์ซ์๋ก ๋ผ๋ฒจ๋ง ๊ฐ๋ฅ. ์๋ ๊ฒฝ์ฐ ์ ํซ ์ธ์ฝ๋ฉ ์ด์ฉ.
cf) One Versus All Classifiers
- ๋ค์ค ๋ ๋ฆฝ ์ด์ง๋ถ๋ฅ๊ธฐ๋ฅผ ์ด์ฉํ์ฌ multiclass classifier๋ฅผ ๋ง๋ค ์ ์๋ค.
- ๊ฐ ๋ถ๋ฅ๊ธฐ๊ฐ ์์ธกํ ๊ฐ๋ฅ์ฑ ์ค ๊ฐ์ฅ ํฐ ๊ฒ์ ์ฑํ.
3. Hierarchical Classification
- ์ ์ฌ์ฑ์ ์ด์ฉํด ๊ทธ๋ฃน์ผ๋ก ๋๋๊ณ taxonomy๋ฅผ ๋ง๋๋ ๊ฒ์ ํจ์จ์ ์ธ class ๊ฐ์๋ฅผ ์ค์ผ ์ ์๊ฒ ํ๋ค.
- top-down tree๋ฅผ ์ด์ฉํด ๋ถ๋ฅ