KOOC/DataScience Programming

Data Handling and Descriptive Statistics <1-2>

dataart 2024. 4. 29. 21:26

 

 

<< 1주차 Lecture Note 2번째>>

  • Descriptive Statistics
  • Unbiased Estimator

Descriptive Statistics

 

주장에 대한 근거를 설명할 때, 데이터의 통계량은 충분한 설득력이 있다.

대표적인게 평균, 분산이다.

 

 

Mean Squared Variance의 기본 정의를 풀어보면 아래처럼 간단한 식이 나온다. 

 

Varn(X)=En[XEn(X)]2=1ni=1nxi2En(X)2

 

Sample Variance는 제한된 샘플 하에서 구한 variance이다. 우리가 가진 데이터는 population이 아니므로,

sample variance를 이용하게 되며, 샘플 수가 많아질 수록 모수에 가까워지는 특성이 있어 unbiased estimator 로 분류된다.

 


Unbiased Estimator

 

Unbiased Estimator는 샘플 n의 크기가 증가할수록 모수의 estimator에 가까워지는 것을 뜻한다.

반대로 말하면, n의 크기가 증가하더라도 모수 estimator와 차이가 존재한다면 그것이 bias 이다.

 

Sample Variance는 증명을 통해 unbiased estimator임을 보일 수 있다.

Sample Variance의 기댓값( E(S2)을 풀어보면,

nn1(σ2+μ2)1(n1)[σ2+nμ2] 이 되고,

N → ∞ 일 때 이 식은 σ2 만 남게 된다.

 

임의의 분포에서 임의의 파라미터에 대해서 항상 unbiased 인가 에 대한 질문은 데이터 분석의 정확성을 높이는 데에 도움을 준다.

 

 

 

 

반응형
댓글수0