-
단순회귀모형Math as Code 2021. 3. 4. 20:08반응형
회귀분석(Regression Analysis)은 독립변수(들)과 종속변수 간의 함수관계를 규명하는 통계적인 분석방법입니다. 회귀란 용어는 영국의 우생학자 (다윈의 친척이었던) 갈튼이 콩의 유전 관계(heredity)를 살펴보던 중 "본래의 자기 자리로 돌아 온다"는 뜻에서 개념을 확립하고 사용하였습니다.
이러한 발견은 피어슨 상관계수보다 이전으로 갈튼이 회귀와 관련한 주요개념을 먼저 확립했음과 동시에 많은 교과 내용의 순서와 달리 상관계수보다 회귀가 먼저 '개발'되었다는 점을 시사합니다 [1].
이번 글에서는 다음과 같은 사항들을 알아보겠습니다:
- 단순회귀모형
- 회귀선의 추정
- 회귀선
- 최소제곱법
- 잔차
- 회귀모형의 평가
- 분산분석표에 의한 F-검정
- 결정계수
- 추정값의 표준오차
- 상관계수와 결정계수
단순회귀모형
단순회귀모형은 아래와 같은 수식을 가집니다:
$Y_i = B_0 + B_1X_i + \epsilon_i$
여기서,
- $Y_i$ : i번째 측정된 종속변수 Y의 값
- $B_0$ : 절편 회귀계수
- $B_1$ : 기울기 회귀계수
- $X_i$ : i번째 주어진 상수 X값
- $\epsilon_i$ : i번째 측정된 Y의 오차항으로 평균 $E(\epsilon_i) = 0$, 분산 $Var(\epsilon_i) = \sigma^2$이면서, 다른 오차항과는 상관관계가 없는 것
으로 가정합니다.
수식에 대한 특징으로는
- 종속변수 $Y_i$는 상수항 $B_0 + B_1X_1$와 오차항 $\epsilon_i$로 이루어져 있으며, 따라서 $Y_i$는 확률변수입니다.
- 오차항의 평균 $E(\epsilon_i) = 0$ 이므로, $E(Y_i) = E(B_0 + B_1X_i + \epsilon_i) = B_0 + B_1X_i + E(\epsilon_i) = B_0 + B_1X_i$ 이고, 주어진 X에서 Y의 기댓값(Expected Value)을 $\mu_{Y * X} = B_0 + B_1X$ 라고 하면 $Y = \mu_{Y * X} + \epsilon$
- 오차항 $\epsilon_i$의 분산은 등분산(homoscedastic) $\sigma^2$ 으로 가정, 따라서 종속변수 $Y_i$의 분산(Variance)은 $Var(Y_i) = Var(B_0 + B_1X_1 + \epsilon_i) = Var(\epsilon_i) = \sigma^2$ 이므로, 종속변수 $Y_i$도 등분산 $\sigma^2$ 입니다.
- 종속변수 Y의 오차항들은 서로 독립이라고 가정하면, 두 변수간 공분산(covariance)는 $Cov(\epsilon_i, \epsilon_j) = 0, i \ne j$ 이 성립합니다. 오차항 $\epsilon_i$ 와 $\epsilon_j$가 서로 독립이므로, 종속변수 $Y_i$ 와 $Y_j$ 도 서로 독립입니다.
대체모형 (Alternative Model)
$\begin{align} Y_i &= B_0 + B_1X_i + \epsilon_i \\&= (B_0 + B_1\overline{X}) + B_1(X_i - \overline{X}) + \epsilon_i \\&= B^\star_0 + B_1(X_i - \overline{X}) + \epsilon_i \end{align}$
여기서 $B_0 + B_1\overline{X}$ 를 $B^\star_0$ 로 대치시켰으며, 대체모형은 설명변수로써 $X_i$ 대신 $(X_i - \overline{X})$를 사용하고 있습니다.
회귀선의 추정
회귀선
회귀선은 표본자료(Sample data)로부터 모형식을 추정하여 얻은 직선으로 아래와 같은 공식을 가집니다:
$\hat{Y} = b_0 + b_1X$
이를 추정된 회귀직선, 또는 간단히 회귀선이라고 부릅니다.
여기서,
- $b_0, b_1$은 각각 $B_0, B_1$ 의 추정값.
- $\hat{Y}$ 은 주어진 X에서의 기댓값 $E(Y)$ 의 추정값.
- $b_0$ 는 $X = $ 일 때, $\hat{Y}$ 의 값으로 추정된 회귀절편(intercept).
- $b_1$ 는 X가 한 단위가 증가할 때에 $\hat{Y}$ 의 증가량을 나타내며, 기울기라고도 불립니다.
- $\hat{Y_1} = b_0 + b_1(X+1)$ 이면 $b_0 + b_1X + b_1$으로 $b_1$이 증가하게 됩니다.
최소제곱법
최소제곱법(Method of Least Squares)은 위의 회귀선에 필요한 회귀계수 $b_0, b_1$을 구하는 방법으로, 단순회귀모형에서
오차가 아래와 같다고 할 때,
$Y_i - B_0 - B_1X_i = \epsilon_i$
오차제곱들의 합,
$S = \sum_{i=1}^{n} (Y_i - B_0 - B_1X_i)^2$
을 최소로 하는 $B_0$와 $B_1$의 값들을 이들의 추정값 $b_0$ 와 $b_1$ 으로 하는 방법입니다.
오차제곱합 S를 최소화시키는 $B_0$ 와 $B_1$ 의 값을 구하기 위하여 S를 $B_0$ 와 $B_1$ 로 각각 편미분하여 구할 수 있습니다:
$\frac{\partial S}{\partial B_0} = -2\sum(Y_i - B_0 - B_1X_i)$
$\frac{\partial S}{\partial B_1} = -2\sum X_i(Y_i - B_0 - B_1X_i)$
편미분값을 0으로 만드는 $B_0$ 와 $B_1$ 을 각각 $b_0$ 와 $b_1$ 으로 대체하여 정리하면,
$-2\sum(Y_i - b_0 - b_1X_i) = 0$ 이고,
$b_0n + b_1\sum X_i = \sum Y_i$
그리고 아래 식은,
$-2\sum X_i(Y_i - B_0 - B_1X_i) = 0$ 이고,
$b_0\sum X_i + b_1\sum X_i^2 = \sum X_iY_i$
로 이 식(아랫줄)을 정규방정식(normal equations)이라고 부릅니다.
이 정규방정식을 $b_0$ 와 $b_1$ 에 대하여 풀면,
$\large{b_1 = \frac{\sum(X_i - \overline{X})(Y_i - \overline{Y})}{\sum(X_i - \overline{X})^2}}$
$b_0 = \overline{Y} - b_1\overline{X}$
가 됩니다.
복잡한 수식을 좀 더 간편하게 표현하면,
$S_{XX} = \sum(X_i - \overline{X})^2$
$S_{YY} = \sum(Y_i - \overline{Y})^2$
$S_{XY} = \sum(X_i - \overline{X})(Y_i - \overline{Y})$
라고 할 때 $b_1$ 은,
$b_1 = \frac{S_{XY}}{S_{XX}}$
입니다.
$b_0$에 대한 위의 공식과 회귀선 공식을 조합하면,
$\begin{align} \hat{Y_i} &= b_0 + b_1X_i \\&= (\overline{Y} - b_1\overline{X}) + b_1X_i \end{align}$
$\hat{Y_i} - \overline{Y} = b_1(X_i - \overline{X})$
$\hat{Y}$ 는 한 점 ($\overline{X}$, $\overline{Y}$)를 지나면서 기울기가 $b_1$ 인 직선.
잔차
잔차(residual)은 $X_i$ 에서 관찰(측정)된 값 $Y_i$ 와 추정된 값(최확값) $\hat{Y_i}$ 의 차이로 모형의 성능을 측정하는데에 사용됩니다:
$e_i = Y_i - \hat{Y_i}$
위에서,
- 잔차들의 합은 0. 즉, $\sum e_i = 0$
- 잔차제곱의 합, $\sum e_i^2$ 은 최소가 됨
- 관찰값 $Y_i$ 의 합과 추정값 $\hat{Y_i}$ 의 합은 같음. 즉, $\sum Y_i = \sum\hat{Y_i}$
- 잔차들의 $X_i$ 에 의한 가중합은 0. 즉, $\sum X_ie_i = 0 $
- 잔차들의 $\hat{Y_i}$ 에 의한 가중합도 0. 즉, $\sum \hat{Y_i}e_i = 0$
- 점 ($\overline{X}$, $\overline{Y}$) 는 적합된 회귀선상에 존재함. 즉, $\hat{Y_i} = \overline{Y} + b_1(X_i - \overline{X})$
회귀모형의 평가
분산분석표에 의한 F-검정
분산분석표는 '변동을 분해한 표'입니다.
먼저, 변동의 분해는 분산의 총제곱합을 다음과 같이 잔차, 회귀의 제곱합으로 분해하는 것을 말합니다:
$\sum(Y_i - \overline{Y})^2 = \sum(Y_i - \hat{Y_i})^2 + \sum(\hat{Y_i} - \overline{Y})^2$
SST (총제곱합) = SSE (잔차제곱합) + SSR (회귀제곱합)
단순회귀의 분산분석표는 위를 바탕으로 아래와 같습니다,
요인 자유도 제곱합 평균제곱 (제곱합 / 자유도) 회귀 1 SSR MSR = SSR 잔차 n - 2 SSE MSE = SSE / n - 2 계 n - 1 SST 검정통계량 $F_0$은 회귀의 평균제곱을 잔차의 평균제곱으로 나눈 것으로 아래와 같습니다,
$F_0 = \frac{MSR}{MSE}$
위의 분산분석표에 의한 검정통계량을 가설검정에 기각역으로 사용할 수 있습니다.
$F_0 > F(1, n -2; \alpha)$ 이면 귀무가설을 기각하고, "회귀직선이 유의하다"고 할 수 있습니다.
결정계수
결정계수(coefficient of determination)는 총변동중에서 회귀선에 의하여 설명되는 비율을 나타내며, "회귀선의 기여율"이라고도 불립니다:
$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
$0 \leqq R^2 \leqq 1$
결정계수 값은 0에서 1사이에 있으며 X와 Y 사이에 높은 상관관계가 있을수록 $R^2$ 값은 1에 가까워집니다.
추정값의 표준오차
$\epsilon_i ~ N(0, \sigma^2)$
위의 분산분석표에서 잔차평균제곱 MSE는 오차분산 $\sigma^2$ 의 불편추정량이 됩니다. 따라서 MSE의 제곱근을 추정값의 표준오차(Standard Error of Estimate)이라고 부릅니다:
$S_{Y*X} = \sqrt{MSE}$
추정값의 표준오차는 주로 두 모형의 비교에서 더 작은 값을 가진 모형이 주어진 자료에 더 적합하다는 의미로 사용됩니다.
단순회귀모형에서 상관계수와 결정계수의 관계
상관계수는 두 연속인 변수 간의 선형관계(linear relationship)가 어느 정도인가를 재는 측도입니다.
단순회귀모형에서 상관계수는 결정계수와 아래와 같은 직접적인 관계를 가집니다:
$\begin{align} r &= \frac{\sum(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum(X_i - \overline{X})^2\sum(Y_i - \overline{Y})^2}} &= \frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}} \end{align}$
$r = \pm \sqrt{R^2}$
Reference
[1] Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors
반응형