KOOC/DataScience Programming

Multivariate Gaussian Distribution and Covariance<4-1>

dataart 2024. 5. 19. 21:48

<< 4주차 Lecture Note 1번째>>

  • Multivariate Gaussian Distribution
  • Covariance matrix
  • Pearson Correlation
  • Spearman Correlation

Multivariate Gaussian Distribution

 

앞에서 특정 데이터의 분포를 fit 하기 위해 파라미터를 추정하는 과정이 있었다.

단변량(변수 1개) 데이터에 대한 분포 fit은 앞에서 설명했지만, 현실의 데이터셋은 다변량 데이터에 대한 fit이 필요하다.

그래서 Multivariate 에 대한 파라미터 추정 역시 다뤄야한다.(선형대수 적인 부분은 굳이 글에 쓰지 않음)


다변량 분포 역시 단변량과 마찬가지로 MLE를 통해 파라미터 추정이 가능한데,

Multivariate Gaussian Distribution의 pdf는 아래 링크를 참조하면 된다.

https://en.wikipedia.org/wiki/Multivariate_normal_distribution

 

Multivariate normal distribution - Wikipedia

From Wikipedia, the free encyclopedia Generalization of the one-dimensional normal distribution to higher dimensions In probability theory and statistics, the multivariate normal distribution, multivariate Gaussian distribution, or joint normal distributio

en.wikipedia.org

Univariate과 마찬가지로, MLE를 위해 pdf에 로그를 취한 후, 미분한 값이 optimize 하는 값인 0이 되도록 계산하면 된다.

mean에 대한 추정은 쉽게 나오지만, variance에 대한 추정은 trace trick 이라는 개념을 적용한 공식 유도를 통해 도출한다.

강의의 수식은 아래와 같다.

 

 


Covariance matrix

 

Multivariate에서는 variance가 1개가 아니다.

variance는 각 변수마다 갖기때문에, multivariate에서는 variance가 여러개가 존재하게 되며,

각 데이터 간 공분산도 존재하므로 covariance matrix에 대한 논의가 이어진다.

 

여기서 말하는 covariance matrix란,

두 개의 변수 간 분산에 대해 행렬로 표현한거다.

 

 

위 그림에서 각 X축 Y축은 각각 어떤 변수이며, scatter plot은 두 변수 간 관계를 표현한 것이다.

 

행렬에서, 왼쪽 위에서 오른쪽 아래로 이어지는 대각선( \( k \times k \) )은 Diagonal이라고 하며, 각 변수의 분산을 의미한다.

Diagonal이 아닌 element는 두 변수의 공분산이다.

 

여기서 covariance matrix의 특징이 나온다.

  • covariance matrix는 sqaure matrix, 즉 정사각 배열의 행렬을 갖는다.
  • Diagonal을 기준으로 대칭인 symmetric을 갖는다.
  • 각 변수를 vector라고 볼 때, 두 변수의 곱은 항상 0보다 큰 positive semi-definite이다

Pearson Correlation

 

두 변수의 관계를 볼 때, 데이터마다 단위가 달라서 공분산은 좋은 지표는 아니다.

그래서, 이 값을 scaling해주는 상관관계(correlation)가 등장한다.

 

pearson correlation은 대표적인 상관관계 계수이고, 계산은 아래와 같다.

 

식을 보면, 공분산을 각 데이터의 표준편차의 곱으로 나눠서 스케일링 해준 값이다.

상관계수를 구하면 각 변수 간 연관성의 정도를 파악하는 데에 용이해진다.

 

또한 상관계수는 명확한 범위가 정해져있다.

 

상관관계는 0에 가까울수록 연관성이 없는 것이고, -1 또는 1에 가까울수록 관계가 강해지는걸 의미한다.

이 범위를 증명하는 방법으로 cosine similarity가 있는데, 한번 찾아보면 좋을 것 같다.


Spearman Correlation

pearson 상관계수는 실제 X 값을 evaluate 하는 것이며, 선형 관계를 보는 데에 유용한 방법이다.

하지만, 현실에서 선형 관계 뿐만아니라 비선형 관계도 존재할 것이고,

변수의 수치보다 변수의 순서 또는 순위를 고려해야하는 경우도 존재한다.

 

이럴 떄 사용하는게 스피어만 상관계수인데, 계산은 피어슨 상관계수와 유사하다.

다만, X의 real value 대신 distinct 한 rank로 변환한 값으로 계산하게 된다.

 

스피어만 상관계수는 선형관계보다는 monotonic한 관계를 확인하는 데에 유용하다.

반응형