<< 5주차 Lecture Note 1번째>>
- Deterministic Relation
- Estimate of beta ( Least Square Principle )
- Evaluate of beta(R-Square)
Deterministic Relation
2024.05.19 - [KOOC/DataScience Programming] - Multivariate Gaussian Distribution and Covariance<4-1>
Multivariate Gaussian Distribution and Covariance<4-1>
>Multivariate Gaussian DistributionCovariance matrixPearson CorrelationSpearman CorrelationMultivariate Gaussian Distribution 앞에서 특정 데이터의 분포를 fit 하기 위해 파라미터를 추정하는 과정이 있었다.단변량(변수 1개
statfinance.tistory.com
앞 글에서, 두 변수 간의 상관관계에 대해 논의했다.
상관관계의 문제점은 아래와 같다.
- 두 변수 간 관계를 명확하게 정의하지 않는다.
- 따라서 어떤 변수의 값을 통해 다른 변수의 값을 예측할 수 없다.
- 3개 이상의 변수에 대해서는 선형 관계를 정립할 수 없다.
변수 간의 관계를 명확하게 '수식화' 하기 위해 가장 기초적인 모델로 등장하는 것이 Linear Regression 모델이다.
가장 간단한 deterministic mathmatical relationship을 표현한 수식은 아래와 같다.
위 식은 선형 수식으로 표현한 두 변수 간의 관계다.
하지만 현실에서는,
확률을 포함한 선형관계로 이루어진다.
위 식은 generalized probabilistic model 로, 값 Y는 X에 정해진
상관관계만으로는 두 변수 간 관계를 deterministic 하게 표현할 수 없지만,
선형 수식화를 함으로써 그 관계를 명확히 하는 것이며,
이로써 변수가 3개 이상일 때에도 관계를 표현할 수 있고, 값 예측도 가능해진다.
Estimate of beta ( Least Square Principle )
그럼 변수 간 관계 명확화를 위해서,
이는 변수
먼저 특정 조건 하의 Y의 평균, 분산을 구하면 아래와 같다.

Y의 평균, 분산을 안 상태에서,
최소제곱법(Least Square Principle) 이란, 추정한
더 쉽게 말하면, 선형 모형을 만들 때 그 값과 실제값의 차이가 가장 적게되도록
(아래 그림에서 수직으로 그어진 선이 선형 모형과 실제값의 차이를 나타내는 오차이며, 이 거리를 최소화 하는 선형모델을 구하는 것이다.)

이것은 현재 데이터 상태에 선형 모형을 optimize 하는 것과 동일하다.
식으로 다시 풀어보면,
위 식에 따라

Evaluate of beta(R-Square)
통계적 추정치는 항상 검증을 거치게 된다는 점에서, 이 모형도 똑같은거다.
앞에서
따라서, 검증은 오차를 얼마나 작게 만들었는지로 해볼 수 있다.
추정한 선형 모델
이 잔차의 제곱합의 크기로
잔차의 제곱합 크기를 확인하기 전에, 먼저 잔차의 분포를 확인해볼 필요가 있다.
우리의 가정에 따르면
잔차의 검증을 위한 R-squre는 결정계수라고 부르는데,
쉽게 말하면 fitting 한 선형 모델이 실제 데이터를 설명하는 비율 정도로 생각할 수 있다.
더 정확히 말하면, 전체
fitting된 모델이 차지하는 정도를 비율로 나타낸 것이다.
검증을 위한 계산 식은 아래와 같다.

통상 선형 회귀모델의 검증 지표로 사용되는데,
이 R-Square 하나만으로는 해당 모델에 대해 실제 데이터에 유의함을 판단할 수는 없고, 추정이 적정하다는 정도만 판단할 수 있다.
따라서, 맹신하지 말고 통계모델 검증에는 다른 지표들을 같이 보는게 좋을 것이다.
'KOOC > DataScience Programming' 카테고리의 다른 글
Linear Regression Advanced <6-2> (0) | 2024.05.25 |
---|---|
Linear Regression Advanced <6-1> (0) | 2024.05.25 |
Multivariate Gaussian Distribution and Covariance<4-1> (1) | 2024.05.19 |
Confidence Interval and Bootstrapping <3-2> (0) | 2024.05.18 |
Confidence Interval and Bootstrapping <3-1> (0) | 2024.05.14 |