본문 바로가기
KOOC/DataScience Programming

Linear Regression Basic <5-1>

by dataart 2024. 5. 22.

 

 

<< 5주차 Lecture Note 1번째>>

  • Deterministic Relation
  • Estimate of beta ( Least Square Principle )
  • Evaluate of beta(R-Square)

Deterministic Relation

 

2024.05.19 - [KOOC/DataScience Programming] - Multivariate Gaussian Distribution and Covariance<4-1>

 

Multivariate Gaussian Distribution and Covariance<4-1>

>Multivariate Gaussian DistributionCovariance matrixPearson CorrelationSpearman CorrelationMultivariate Gaussian Distribution 앞에서 특정 데이터의 분포를 fit 하기 위해 파라미터를 추정하는 과정이 있었다.단변량(변수 1개

statfinance.tistory.com

 

앞 글에서, 두 변수 간의 상관관계에 대해 논의했다.

상관관계의 문제점은 아래와 같다.

  • 두 변수 간 관계를 명확하게 정의하지 않는다.
  • 따라서 어떤 변수의 값을 통해 다른 변수의 값을 예측할 수 없다.
  • 3개 이상의 변수에 대해서는 선형 관계를 정립할 수 없다.

 

변수 간의 관계를 명확하게 '수식화' 하기 위해 가장 기초적인 모델로 등장하는 것이 Linear Regression 모델이다.

 

가장 간단한 deterministic mathmatical relationship을 표현한 수식은 아래와 같다.

\( \quad \) \( y = \beta_0 + \beta_1x \)

 

위 식은 선형 수식으로 표현한 두 변수 간의 관계다.

하지만 현실에서는, \( x \) 와 \(y \)는 불확실성을 내포하므로 정확히 선형인 관계는 성립될 수 없으며,

확률을 포함한 선형관계로 이루어진다.

 

\( Y = \beta_0 + \beta_1x + \epsilon, \quad \epsilon \sim N(0, \sigma^2) \)

 

위 식은 generalized probabilistic model 로, 값 Y는 X에 정해진 \(\beta\) 값 과 함께 확률기반 오차 \( \epsilon\) 를 포함하고 있다는 것이다.

 

상관관계만으로는 두 변수 간 관계를 deterministic 하게 표현할 수 없지만,

선형 수식화를 함으로써 그 관계를 명확히 하는 것이며,

이로써 변수가 3개 이상일 때에도 관계를 표현할 수 있고, 값 예측도 가능해진다.

 


Estimate of beta ( Least Square Principle )

 

그럼 변수 간 관계 명확화를 위해서, \( \beta \) 값이 무엇인지 알아야 한다.

이는 변수 \(x\) 가 특정 값인 \( x^\star \) 라는 조건 하에서 변수 \(Y\)의 평균, 분산을 구함으로써 추정을 시작할 수 있다.

 

먼저 특정 조건 하의 Y의 평균, 분산을 구하면 아래와 같다.

 

 

Y의 평균, 분산을 안 상태에서, \( \beta \)를 추정하는 방법 중 가장 널리 알려진 방법은 '최소제곱법' 이다.

 

최소제곱법(Least Square Principle) 이란, 추정한 \( beta \)로 만들어진 선형 모델과 실제값의 오차를 가장 작게 만드는 것이다.

더 쉽게 말하면, 선형 모형을 만들 때 그 값과 실제값의 차이가 가장 적게되도록 \( \beta \)를 추정한다는 거다.

 

(아래 그림에서 수직으로 그어진 선이 선형 모형과 실제값의 차이를 나타내는 오차이며, 이 거리를 최소화 하는 선형모델을 구하는 것이다.)

 

 

이것은 현재 데이터 상태에 선형 모형을 optimize 하는 것과 동일하다.

식으로 다시 풀어보면,

 

\( y = \beta_0 + \beta_1x + \epsilon \) 이므로,

\( \epsilon = y - \beta_0 + \beta_1x \) 가 되며, 모든 \( (x_i, y_i) \) 값에서 이 \( \epsilon_i \) 의 제곱합이 가장 작도록 하는 \( \beta \)를 구하면 된다.

 

위 식에 따라 \( \epsilon^2 \) 은 이차방정식이 되고, 이 방정식을 미분한 값이 0이 될 때, \( \beta \)는 optimize 하는 거다.

 

\( \beta_0 \) 과 \( \beta_1 \)에 대해 이차방정식을 각각 편미분해서 정리하면 아래와 같은 결과가 나온다.

 

 

 


Evaluate of beta(R-Square)

 

\( \beta \) 값을 추정하고나면, 가장 먼저 떠오르는 질문은 < \( \beta \)는 잘 맞는 추정인가? > 이다.

통계적 추정치는 항상 검증을 거치게 된다는 점에서, 이 모형도 똑같은거다.

 

앞에서 \( \beta \)는 오차를 가장 작게 만드는 추정치라고 했다.

따라서, 검증은 오차를 얼마나 작게 만들었는지로 해볼 수 있다.

 

추정한 선형 모델 \( \hat y = \hat\beta_0 + \hat\beta_1x \) 과 실제값 \(y \) 사이의 차이를 '잔차(Residual)' 이라고 부른다.

이 잔차의 제곱합의 크기로 \( \hat\beta \) 에 대한 검증이 가능해진다.

 

잔차의 제곱합 크기를 확인하기 전에, 먼저 잔차의 분포를 확인해볼 필요가 있다.

우리의 가정에 따르면 \( \epsilon \) 은 정규분포를 따르므로, 잔차 또한 정규분포를 잘 따른다면 fitting이 잘 된 것이라고 볼 수 있다.

 

잔차의 검증을 위한 R-squre는 결정계수라고 부르는데,

쉽게 말하면 fitting 한 선형 모델이 실제 데이터를 설명하는 비율 정도로 생각할 수 있다.

 

더 정확히 말하면, 전체 \( y \) 값의 오차 중 residual이 차지하는 정도와, fitting된 모델이 차지하는 정도를 분리하고,

fitting된 모델이 차지하는 정도를 비율로 나타낸 것이다.

 

검증을 위한 계산 식은 아래와 같다.

 

 

 

통상 선형 회귀모델의 검증 지표로 사용되는데,

이 R-Square 하나만으로는 해당 모델에 대해 실제 데이터에 유의함을 판단할 수는 없고, 추정이 적정하다는 정도만 판단할 수 있다.

따라서, 맹신하지 말고 통계모델 검증에는 다른 지표들을 같이 보는게 좋을 것이다.

 

반응형