PCA(Principle Component Analysis)란?
데이터 세트를 기반으로 새로운 직교(Orthogonal) Feature 백터세트를 찾는 방법인데, 이 벡터는 Feature 백터나 Dimension 에서 최대로 확산될 수 있는 데이터를 의미한다.
PCA는 데이터의 분산이나 퍼지는 정도에 따라 감소하는 순서로 Feature 백터의 등급을 매긴다.
데이터 포인터들(datapoints)은 첫번째 Feature 백터에서 최대 분산 값을 가진다. 그리고 가장 마지막 Feature 백터에서 최소 분산 값을 가진다.
Feature 백터에서 데이터포인트들의 분산은 방향(Direction)의 정보를 측정이라고 할 수 있다.
과정
- 데이터 포인트들을 표준화한다.
- 주어진 데이터 포인트들로 부터 공분산(Covariance) matrix를 찾는다.
- 공분산 매트릭스의 고유값 분해(Eigen-value decomposition)를 수행한다.
- 고유값(eigenvalues)들과 고유벡터(eigenvectors)들을 정렬한다.
- PCA를 통한 차원수 감소(Dimentionality Reduction)
과정
- 위의 4가지 과정을 수행한다.
- 정렬된 고유벡터(eigenvector) matrix으로 부터 첫번째 m fecture 백터들을 유지한다.
- 새로운 기저(Basis)를 위해 데이터를 변환(Transform)한다.
- Fecture 벡터의 중요성은 고유값(eigen value)의 규모에 비례한다.
'컴퓨터공학 > Machine Learning Study' 카테고리의 다른 글
Imbalanced Data in Classification, 분류에서 불안정한 데이터 (0) | 2022.10.26 |
---|---|
P-value란? 유의 확률 (0) | 2022.10.26 |
[Machine Learning] Bias-Variance Tradeoff (0) | 2022.09.27 |
[머신러닝 시스템 디자인 스터디 Part5] Performance and Capacity Considerations (0) | 2022.08.18 |
[머신러닝 시스템 디자인 스터디 Part5]Offline model building and evaluation (0) | 2022.08.14 |