<< 5주차 Lecture Note 1번째>>
- Deterministic Relation
- Estimate of beta ( Least Square Principle )
- Evaluate of beta(R-Square)
Deterministic Relation
2024.05.19 - [KOOC/DataScience Programming] - Multivariate Gaussian Distribution and Covariance<4-1>
Multivariate Gaussian Distribution and Covariance<4-1>
>Multivariate Gaussian DistributionCovariance matrixPearson CorrelationSpearman CorrelationMultivariate Gaussian Distribution 앞에서 특정 데이터의 분포를 fit 하기 위해 파라미터를 추정하는 과정이 있었다.단변량(변수 1개
statfinance.tistory.com
앞 글에서, 두 변수 간의 상관관계에 대해 논의했다.
상관관계의 문제점은 아래와 같다.
- 두 변수 간 관계를 명확하게 정의하지 않는다.
- 따라서 어떤 변수의 값을 통해 다른 변수의 값을 예측할 수 없다.
- 3개 이상의 변수에 대해서는 선형 관계를 정립할 수 없다.
변수 간의 관계를 명확하게 '수식화' 하기 위해 가장 기초적인 모델로 등장하는 것이 Linear Regression 모델이다.
가장 간단한 deterministic mathmatical relationship을 표현한 수식은 아래와 같다.
\( \quad \) \( y = \beta_0 + \beta_1x \)
위 식은 선형 수식으로 표현한 두 변수 간의 관계다.
하지만 현실에서는, \( x \) 와 \(y \)는 불확실성을 내포하므로 정확히 선형인 관계는 성립될 수 없으며,
확률을 포함한 선형관계로 이루어진다.
\( Y = \beta_0 + \beta_1x + \epsilon, \quad \epsilon \sim N(0, \sigma^2) \)
위 식은 generalized probabilistic model 로, 값 Y는 X에 정해진 \(\beta\) 값 과 함께 확률기반 오차 \( \epsilon\) 를 포함하고 있다는 것이다.
상관관계만으로는 두 변수 간 관계를 deterministic 하게 표현할 수 없지만,
선형 수식화를 함으로써 그 관계를 명확히 하는 것이며,
이로써 변수가 3개 이상일 때에도 관계를 표현할 수 있고, 값 예측도 가능해진다.
Estimate of beta ( Least Square Principle )
그럼 변수 간 관계 명확화를 위해서, \( \beta \) 값이 무엇인지 알아야 한다.
이는 변수 \(x\) 가 특정 값인 \( x^\star \) 라는 조건 하에서 변수 \(Y\)의 평균, 분산을 구함으로써 추정을 시작할 수 있다.
먼저 특정 조건 하의 Y의 평균, 분산을 구하면 아래와 같다.
Y의 평균, 분산을 안 상태에서, \( \beta \)를 추정하는 방법 중 가장 널리 알려진 방법은 '최소제곱법' 이다.
최소제곱법(Least Square Principle) 이란, 추정한 \( beta \)로 만들어진 선형 모델과 실제값의 오차를 가장 작게 만드는 것이다.
더 쉽게 말하면, 선형 모형을 만들 때 그 값과 실제값의 차이가 가장 적게되도록 \( \beta \)를 추정한다는 거다.
(아래 그림에서 수직으로 그어진 선이 선형 모형과 실제값의 차이를 나타내는 오차이며, 이 거리를 최소화 하는 선형모델을 구하는 것이다.)
이것은 현재 데이터 상태에 선형 모형을 optimize 하는 것과 동일하다.
식으로 다시 풀어보면,
\( y = \beta_0 + \beta_1x + \epsilon \) 이므로,
\( \epsilon = y - \beta_0 + \beta_1x \) 가 되며, 모든 \( (x_i, y_i) \) 값에서 이 \( \epsilon_i \) 의 제곱합이 가장 작도록 하는 \( \beta \)를 구하면 된다.
위 식에 따라 \( \epsilon^2 \) 은 이차방정식이 되고, 이 방정식을 미분한 값이 0이 될 때, \( \beta \)는 optimize 하는 거다.
\( \beta_0 \) 과 \( \beta_1 \)에 대해 이차방정식을 각각 편미분해서 정리하면 아래와 같은 결과가 나온다.
Evaluate of beta(R-Square)
\( \beta \) 값을 추정하고나면, 가장 먼저 떠오르는 질문은 < \( \beta \)는 잘 맞는 추정인가? > 이다.
통계적 추정치는 항상 검증을 거치게 된다는 점에서, 이 모형도 똑같은거다.
앞에서 \( \beta \)는 오차를 가장 작게 만드는 추정치라고 했다.
따라서, 검증은 오차를 얼마나 작게 만들었는지로 해볼 수 있다.
추정한 선형 모델 \( \hat y = \hat\beta_0 + \hat\beta_1x \) 과 실제값 \(y \) 사이의 차이를 '잔차(Residual)' 이라고 부른다.
이 잔차의 제곱합의 크기로 \( \hat\beta \) 에 대한 검증이 가능해진다.
잔차의 제곱합 크기를 확인하기 전에, 먼저 잔차의 분포를 확인해볼 필요가 있다.
우리의 가정에 따르면 \( \epsilon \) 은 정규분포를 따르므로, 잔차 또한 정규분포를 잘 따른다면 fitting이 잘 된 것이라고 볼 수 있다.
잔차의 검증을 위한 R-squre는 결정계수라고 부르는데,
쉽게 말하면 fitting 한 선형 모델이 실제 데이터를 설명하는 비율 정도로 생각할 수 있다.
더 정확히 말하면, 전체 \( y \) 값의 오차 중 residual이 차지하는 정도와, fitting된 모델이 차지하는 정도를 분리하고,
fitting된 모델이 차지하는 정도를 비율로 나타낸 것이다.
검증을 위한 계산 식은 아래와 같다.
통상 선형 회귀모델의 검증 지표로 사용되는데,
이 R-Square 하나만으로는 해당 모델에 대해 실제 데이터에 유의함을 판단할 수는 없고, 추정이 적정하다는 정도만 판단할 수 있다.
따라서, 맹신하지 말고 통계모델 검증에는 다른 지표들을 같이 보는게 좋을 것이다.
'KOOC > DataScience Programming' 카테고리의 다른 글
Linear Regression Advanced <6-2> (0) | 2024.05.25 |
---|---|
Linear Regression Advanced <6-1> (0) | 2024.05.25 |
Multivariate Gaussian Distribution and Covariance<4-1> (1) | 2024.05.19 |
Confidence Interval and Bootstrapping <3-2> (0) | 2024.05.18 |
Confidence Interval and Bootstrapping <3-1> (0) | 2024.05.14 |