Introduction 파트는 이 책에서 어떤 논의를 할 것인지 안내하고,
그에 필요한 기본 배경지식을 설명한다.
Statistical Learning(통계적 학습)
- supervised: input, output → statistical model → predicting, estimating
- unsupervise: None output, only input → learn relationships, structures
▶ supervised | unsupervised
통계적 학습은 지도학습(supervised)과 비지도학습(unsupervised)로 구분되는데,
- 지도학습은 input과 그에 대응하는 output이 존재하는 데이터로 통계 모델링, 예측, 추정한다.
- 비지도학습은 특정 input에 대한 output이 존재하지 않아 예측은 할 수 없지만, input 간의 관계나 구조는 설명 가능.
Data
이 책에서 논의를 위해 사용하는 데이터는 크게 3가지다.
Wage Data
- 연령, 연도, 교육수준이 임금에 어떤 영향을 미치는지 supervised learning을 해볼 수 있는 데이터.
- 이 데이터로 linear regression, non-linear regression을 다루게 됨.
- 해결 문제: Regression
Stock Market Data
- output이 continuous 또는 quantitative 한 Wage Data와 다르게, 현실 세계에는 categorical 또는 qualitative한 문제도 있음.
- 이 데이터는 특정 기간의 S&P500 지수 데이터이고, 지수가 '상승' 또는 '하락' 하는 것(categorical)을 예측하는게 목표임.
- 해결 문제: Classification
Gene Expression Data
- 위에서 언급한 두 데이터셋은 supervised를 위한 데이터셋임.
- 현실 문제에는 예측, 추정 뿐만 아니라 어떤 데이터를 그 특성에 맞는 그룹이나 클러스터로 결정하는 것도 있음.
- 이 데이터는 64개의 암 세포주 각각에 대해 6,830 개의 유전자 발현 특성을 측정한 데이터임.
- 유전적 발현 특성에 기반해 암 세포주의 그룹, 군집을 결정짓는 것이 목표임.
- 해결 문제: Grouping, Clustering
Notation and Simple Matirx Algebra
이 책에서 사용하는 notation을 몇 개 언급하고, 논의를 위해 필요한 기본적인 매트릭스를 설명한다.
Notation
Matrix
이 책에서 언급하는
때문에, 이 책에서 쓰는
매트릭스
그래서, 매트릭스
supervised learning에서는 output에 해당하는
매트릭스와 벡터의 차원을 나타내는 notation은 아래와 같다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
scalar :
vector of length
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
Statistical learning 이론 대부분이 선형대수를 기반으로 하기때문에, 앞으로 표기법은 헷갈리지 말아야겠다..
'Statistics > ISLP' 카테고리의 다른 글
| 2. Statistical Learning | 2.2 Assesing Model Accuracy (1) | 2023.10.18 |
|---|---|
| 2. Statistical Learning | 2.1 What is Statistical Learning? (0) | 2023.09.25 |
| 0. Introduction to Statistical Learning With Python (0) | 2023.09.13 |