1. Introduction
Introduction 파트는 이 책에서 어떤 논의를 할 것인지 안내하고,
그에 필요한 기본 배경지식을 설명한다.
Statistical Learning(통계적 학습)
- supervised: input, output → statistical model → predicting, estimating
- unsupervise: None output, only input → learn relationships, structures
▶ supervised | unsupervised
통계적 학습은 지도학습(supervised)과 비지도학습(unsupervised)로 구분되는데,
- 지도학습은 input과 그에 대응하는 output이 존재하는 데이터로 통계 모델링, 예측, 추정한다.
- 비지도학습은 특정 input에 대한 output이 존재하지 않아 예측은 할 수 없지만, input 간의 관계나 구조는 설명 가능.
Data
이 책에서 논의를 위해 사용하는 데이터는 크게 3가지다.
Wage Data
- 연령, 연도, 교육수준이 임금에 어떤 영향을 미치는지 supervised learning을 해볼 수 있는 데이터.
- 이 데이터로 linear regression, non-linear regression을 다루게 됨.
- 해결 문제: Regression
Stock Market Data
- output이 continuous 또는 quantitative 한 Wage Data와 다르게, 현실 세계에는 categorical 또는 qualitative한 문제도 있음.
- 이 데이터는 특정 기간의 S&P500 지수 데이터이고, 지수가 '상승' 또는 '하락' 하는 것(categorical)을 예측하는게 목표임.
- 해결 문제: Classification
Gene Expression Data
- 위에서 언급한 두 데이터셋은 supervised를 위한 데이터셋임.
- 현실 문제에는 예측, 추정 뿐만 아니라 어떤 데이터를 그 특성에 맞는 그룹이나 클러스터로 결정하는 것도 있음.
- 이 데이터는 64개의 암 세포주 각각에 대해 6,830 개의 유전자 발현 특성을 측정한 데이터임.
- 유전적 발현 특성에 기반해 암 세포주의 그룹, 군집을 결정짓는 것이 목표임.
- 해결 문제: Grouping, Clustering
Notation and Simple Matirx Algebra
이 책에서 사용하는 notation을 몇 개 언급하고, 논의를 위해 필요한 기본적인 매트릭스를 설명한다.
Notation
\(n\) : 샘플에서의 고유한 데이터 포인트 또는 관측값의 수 (row)
\(p\) : 예측을 위해 사용 가능한 변수의 수 (column)
Matrix
이 책에서 언급하는 \(\mathbf{X}\)는 \(x_{ij}\) 원소들로 이루어져 있는 \(n \times p \) 매트릭스다.
$$\mathbf{X} = \begin{pmatrix}x_{11} & x_{12} & \cdots & x_{1p} & \\ x_{21} & x_{22} & \cdots & x_{2p} & \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} & \\ \end{pmatrix}$$\(\mathbf{X}\)의 row 수는 \(n\) 이고, column 수는 \(p\) 이므로,
\(x_{i}\)는 \(i\)번째 row 전체를 뜻한다. 즉, \(x_{i}\)는 길이가 \(p\)인 벡터가 된다.
때문에, 이 책에서 쓰는 \(x_{1}, x_{2}, \cdots, x_{n} \) 은 각각 1개의 개별 값이 아니라, 개별 벡터(매트릭스의 row)다.
매트릭스 \(\mathbf{X} \) 의 column은 앞에서 설명한 row(\(x_{i}\))와 표기 모양이 조금 다르다.
\(\mathbf{x}_{j} \) 는 매트릭스의 \(j\)번째 컬럼을 나타내며, 컬럼은 다음과 같다.
$$\mathbf{x}_{j} = \begin{pmatrix}x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \\ \end{pmatrix}$$그래서, 매트릭스 \(\mathbf{X}\)는 다시 아래처럼 표현할 수 있다.
$$\mathbf{X} = (\mathbf{x}_{1}\quad \mathbf{x}_{2}\quad \cdots\quad \mathbf{x}_{p})$$
supervised learning에서는 output에 해당하는 \(y\) 도 동일한 표기법이 적용되고,
매트릭스와 벡터의 차원을 나타내는 notation은 아래와 같다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
scalar : \(a \in \mathbb{R}\)
vector of length \(k\) : \(a \in \mathbb{R}^{k}\)
\(r \times s \) matrix : \(\mathbf{A} \in \mathbb{R}^{r \times s} \)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
Statistical learning 이론 대부분이 선형대수를 기반으로 하기때문에, 앞으로 표기법은 헷갈리지 말아야겠다..