본문 바로가기
Statistics/ISLP

1. Introduction

by dataart 2023. 9. 14.

Introduction 파트는 이 책에서 어떤 논의를 할 것인지 안내하고,

그에 필요한 기본 배경지식을 설명한다.


Statistical Learning(통계적 학습)

  • supervised: input, output → statistical model → predicting, estimating
  • unsupervise: None output, only input → learn relationships, structures

▶ supervised | unsupervised

통계적 학습은 지도학습(supervised)과 비지도학습(unsupervised)로 구분되는데,

- 지도학습은 input과 그에 대응하는 output이 존재하는 데이터로 통계 모델링, 예측, 추정한다.

- 비지도학습은 특정 input에 대한 output이 존재하지 않아 예측은 할 수 없지만, input 간의 관계나 구조는 설명 가능.


Data

 

이 책에서 논의를 위해 사용하는 데이터는 크게 3가지다.

 

Wage Data

- 연령, 연도, 교육수준이 임금에 어떤 영향을 미치는지 supervised learning을 해볼 수 있는 데이터.

- 이 데이터로 linear regression, non-linear regression을 다루게 됨.

- 해결 문제: Regression

 

Stock Market Data

- output이 continuous 또는 quantitative 한 Wage Data와 다르게, 현실 세계에는 categorical 또는 qualitative한 문제도 있음.

- 이 데이터는 특정 기간의 S&P500 지수 데이터이고, 지수가 '상승' 또는 '하락' 하는 것(categorical)을 예측하는게 목표임.

- 해결 문제: Classification

 

Gene Expression Data

- 위에서 언급한 두 데이터셋은 supervised를 위한 데이터셋임.

- 현실 문제에는 예측, 추정 뿐만 아니라 어떤 데이터를 그 특성에 맞는 그룹이나 클러스터로 결정하는 것도 있음.

- 이 데이터는 64개의 암 세포주 각각에 대해 6,830 개의 유전자 발현 특성을 측정한 데이터임.

- 유전적 발현 특성에 기반해 암 세포주의 그룹, 군집을 결정짓는 것이 목표임.

- 해결 문제: Grouping, Clustering


Notation and Simple Matirx Algebra

 

이 책에서 사용하는 notation을 몇 개 언급하고, 논의를 위해 필요한 기본적인 매트릭스를 설명한다.


Notation

n : 샘플에서의 고유한 데이터 포인트 또는 관측값의 수 (row)

p : 예측을 위해 사용 가능한 변수의 수 (column)

 

 

Matrix

이 책에서 언급하는 Xxij 원소들로 이루어져 있는 n×p 매트릭스다.

X=(x11x12x1px21x22x2pxn1xn2xnp)

X의 row 수는 n 이고, column 수는 p 이므로,

xii번째 row 전체를 뜻한다. 즉, xi는 길이가 p인 벡터가 된다. 

때문에, 이 책에서 쓰는 x1,x2,,xn 은 각각 1개의 개별 값이 아니라, 개별 벡터(매트릭스의 row)다.

 

매트릭스 Xcolumn은 앞에서 설명한 row(xi)와 표기 모양이 조금 다르다.

xj 는 매트릭스의 j번째 컬럼을 나타내며, 컬럼은 다음과 같다.

xj=(x1jx2jxnj)

그래서, 매트릭스 X는 다시 아래처럼 표현할 수 있다.

X=(x1x2xp)

 

supervised learning에서는 output에 해당하는 y 도 동일한 표기법이 적용되고,

매트릭스와 벡터의 차원을 나타내는 notation은 아래와 같다.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

scalar : aR

vector of length k : aRk

r×s matrix : ARr×s

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

 

Statistical learning 이론 대부분이 선형대수를 기반으로 하기때문에, 앞으로 표기법은 헷갈리지 말아야겠다..

반응형