1. Introduction

Statistics/ISLP

1. Introduction

dataart 2023. 9. 14. 16:55

Introduction 파트는 이 책에서 어떤 논의를 할 것인지 안내하고,

그에 필요한 기본 배경지식을 설명한다.

Statistical Learning(통계적 학습)

supervised: input, output → statistical model → predicting, estimating
unsupervise: None output, only input → learn relationships, structures

▶ supervised | unsupervised

통계적 학습은 지도학습(supervised)과 비지도학습(unsupervised)로 구분되는데,

- 지도학습은 input과 그에 대응하는 output이 존재하는 데이터로 통계 모델링, 예측, 추정한다.

- 비지도학습은 특정 input에 대한 output이 존재하지 않아 예측은 할 수 없지만, input 간의 관계나 구조는 설명 가능.

Data

이 책에서 논의를 위해 사용하는 데이터는 크게 3가지다.

Wage Data

- 연령, 연도, 교육수준이 임금에 어떤 영향을 미치는지 supervised learning을 해볼 수 있는 데이터.

- 이 데이터로 linear regression, non-linear regression을 다루게 됨.

- 해결 문제: Regression

Stock Market Data

- output이 continuous 또는 quantitative 한 Wage Data와 다르게, 현실 세계에는 categorical 또는 qualitative한 문제도 있음.

- 이 데이터는 특정 기간의 S&P500 지수 데이터이고, 지수가 '상승' 또는 '하락' 하는 것(categorical)을 예측하는게 목표임.

- 해결 문제: Classification

Gene Expression Data

- 위에서 언급한 두 데이터셋은 supervised를 위한 데이터셋임.

- 현실 문제에는 예측, 추정 뿐만 아니라 어떤 데이터를 그 특성에 맞는 그룹이나 클러스터로 결정하는 것도 있음.

- 이 데이터는 64개의 암 세포주 각각에 대해 6,830 개의 유전자 발현 특성을 측정한 데이터임.

- 유전적 발현 특성에 기반해 암 세포주의 그룹, 군집을 결정짓는 것이 목표임.

- 해결 문제: Grouping, Clustering

Notation and Simple Matirx Algebra

이 책에서 사용하는 notation을 몇 개 언급하고, 논의를 위해 필요한 기본적인 매트릭스를 설명한다.

Notation

$n$ : 샘플에서의 고유한 데이터 포인트 또는 관측값의 수 (row)

$p$ : 예측을 위해 사용 가능한 변수의 수 (column)

Matrix

이 책에서 언급하는 $\mathbf{X}$는 $x_{ij}$ 원소들로 이루어져 있는 $n \times p $ 매트릭스다.

$$\mathbf{X} = \begin{pmatrix}x_{11} & x_{12} & \cdots & x_{1p} & \\ x_{21} & x_{22} & \cdots & x_{2p} & \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} & \\ \end{pmatrix}$$

$\mathbf{X}$의 row 수는 $n$ 이고, column 수는 $p$ 이므로,

$x_{i}$는 $i$번째 row 전체를 뜻한다. 즉, $x_{i}$는 길이가 $p$인 벡터가 된다.

때문에, 이 책에서 쓰는 $x_{1}, x_{2}, \cdots, x_{n} $ 은 각각 1개의 개별 값이 아니라, 개별 벡터(매트릭스의 row)다.

매트릭스 $\mathbf{X} $ 의 column은 앞에서 설명한 row($x_{i}$)와 표기 모양이 조금 다르다.

$\mathbf{x}_{j} $ 는 매트릭스의 $j$번째 컬럼을 나타내며, 컬럼은 다음과 같다.

$$\mathbf{x}_{j} = \begin{pmatrix}x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \\ \end{pmatrix}$$

그래서, 매트릭스 $\mathbf{X}$는 다시 아래처럼 표현할 수 있다.

$$\mathbf{X} = (\mathbf{x}_{1}\quad \mathbf{x}_{2}\quad \cdots\quad \mathbf{x}_{p})$$

supervised learning에서는 output에 해당하는 $y$ 도 동일한 표기법이 적용되고,

매트릭스와 벡터의 차원을 나타내는 notation은 아래와 같다.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

scalar : $a \in \mathbb{R}$

vector of length $k$ : $a \in \mathbb{R}^{k}$

$r \times s $ matrix : $\mathbf{A} \in \mathbb{R}^{r \times s} $

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

Statistical learning 이론 대부분이 선형대수를 기반으로 하기때문에, 앞으로 표기법은 헷갈리지 말아야겠다..