영이 공부노트

선형 회귀 (Linear Regression) 란 무엇인가?

회귀란 x값에 대응하는 y값과 가장 가까운 값(y hat)를 출력하는 함수를 찾는 과정이다. 여기에서 사용하는 함수가 선형 함수라면 선형회귀라고 볼 수 있다.

선형회귀를 사용하는 이유는 그 단순함에 있다. 각 피쳐의 계수와 목표하는 변수 사이의 관계를 보다 더 직관적으로 표현할 수 있기 때문이다.

선형 회귀의 종류

- 단순 선형 회귀

피쳐(x)가 하나뿐인 모델이고 목표 변수와 피쳐가 같은 좌표평면에 나타나는 직선 형태이다. 단순 선형 회귀는 선형 사상에 부합한다.

- 다중 선형 회귀

피쳐(x)가 여러 개인 모델로 다차원 공간에서 존재하는 직선의 형태로 표현된다. 마찬가지로 선형 사상에 부합한다.

- 다항 회귀 (Polynomial)

피쳐는 1개뿐이지만 다항식의 형태로 나타나므로 곡선의 형태로 표현된다. 다항 회귀의 경우 지수가 늘어날 때마다 급격히 복잡해지므로 회귀 모델에서 오버피팅(overfitting, 과적합)이 발생할 가능성이 높아진다.

비용함수

머신러닝에서는 주어진 데이터를 모델에 투입함으로써 모델을 적합하게 만드는 학습과정을 거친다. 이때 제대로 적합이 되려면 모델의 예측값과 실제 값을 줄여야 한다. 모델의 예측값과 실제 값의 차이를 비교하는 함수를 비용(cost) 함수라고 부른다. 비용함수는 모델의 특성에 맞게 오차를 측정하는 역할을 하며, 보통 비용함수 값이 작을수록 오차가 작으며 모델이 잘 학습되었다는 것을 의미한다.

다음과 같은 비용함수를 사용할 수 있다.

단순 선형 회귀 구현

sklearn (싸이킷런) 을 이용한다. 모델 코드를 구현할 때 다음과 같은 모듈을 사용하였다.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score, mean_squared_error

학습, 검증 데이터를 분리하여야 하므로 다음과 같은 함수를 이용한다.

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 156)

x, y는 데이터에서 불러온 각각의 x, y 값들이다.

test_size는 검증 데이터로 분리할 데이터의 비율을 지정해준다. random_state는 아무 숫자나 적는다.

데이터셋들로 학습을 하려면 다음과 같은 과정을 거친다.

lr = LinearRegression(fit_intercept = True)
lr.fit(X_train, y_train)

fit_intercept를 True로 설정하여 단순 선형 회귀 모델에 b0값도 포함시킨다.

이후 lr.fit을 통해 학습시킨다.

lr.coef_ # b값들의 array
lr.coef_[0] # b1 값에 접근
lr.intercept_ # b0 값 (절편)에 접근

모델에서 coef_를 이용하면 b값들의 array를 구할 수 있고, index를 지정하여 각각에 접근할 수 있으며, intercept_는 절편, 즉 b0 값을 알려주는 메서드다.

y_train_pred = lr.predict(X_train)
y_test_pred = lr.predict(X_test)

train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

lr.score(X_test, y_test)

predict 메서드를 이용하여 결과를 확인한다.

r2_score안의 파라미터는 실제 y값과 모델이 도출한 y hat 값을 받는다. r2_score가 반환하는 값이 클수록 잘 예측하였다는 뜻이다.

lr.score와 같은 방법으로도 test 결과를 확인할 수 있다.

다항 회귀 구현 - 2nd order Polynomial Regression

quad = PolynomialFeatures(degree = 2)
X_quad = quad.fit_transform(x)

quadratic regression은 2차 다항 회귀를 의미한다.

PolynomialFeatures는 파라미터를 degree로 받는데, 여기에 넣어주는 숫자에 따라서 다항회귀의 차수가 결정된다.

X_train, X_test, y_train, y_test = train_test_split(X_quad, y, random_state = 156)

plr = LinearRegression()
plr.fit(X_train, y_train)

y_train_pred = plr.predict(X_train)
y_test_pred = plr.predict(X_test)

plr.score(X_test, y_test)

train_test_split을 통해 학습, 검증데이터를 분리하고 데이터를 모델에 학습시킨다. 다음으로 모델이 얼마나 적합한지 평가할 수 있다.

만약 3차, 4차 등의 다항회귀를 해보고 싶다면 위에서 degree값만 변경시키고 나머지 과정은 똑같이 하면 된다.

선형 회귀 개념, 코드

티스토리툴바