도형 분류기
아래 그림과 같이 도형을 분류하는 Classifier가 있다고 생각해보자.
Blue, Green의 도형이 있고 이 분류기는 Blue label을 분류할때 사용된다.
정확도(Accuracy)는 맞는 예측(Correct Predictions) / 전체 예측(Total Predicitons)식으로 구할 수 있다.
이 Classifier는 Blue Label을 예측할때 예측의 정확도를 항상 90%만큼 가지게 된다.
하지만 정확도(Accuracy)는 항상 훈련된 모델에 대한 올바른 통찰을 주지않는다.
모델과 관련된 용어들
Accuracy(정확도): 올바른 예측을 하는 것에 대한 %(Percentage)
- 전체 Precitions(예측들)에서 올바른 예측이 얼마나 나오는지에 대한 값.
- 전체 네트워크에 의한 하나의 값
Precision(예측): 모델의 정확성
- 인식된 고양이들 중에 얼마나 많은 실제 고양이가 있는지에 대한 값.
- 각각의 class/label이 갖는 하나의 값
Recall: 모델의 완성도
- 전체 고양이들 중에 올바르게 인식된 고양이의 수.
- 각각의 class/label이 갖는 하나의 값
F1 Score: Precision과 Recall의 조합
- Precision과 Recall의 조화 평균(Harmonic Mean)
- 각각의 class/label이 갖는 하나의 값
위 그림에서, 실제 고양이들은 True Positive, False Negative에 있다고 생각하자.
그렇다면, Recall은 (TP / TP + FN)로 계산되는데 실제 고양이 사진들 중에 제대로 인식된 고양이들의 수를 나타낸다.
그리고, Precision은 인식된(Predicted Labels) 고양이 사진들 중에 몇개의 고양이 사진이 진짜 고양이인지 나타낸다.
즉 Precision은 (TP / TP + FP) 이다.
나머지, F1 score와 같은 식은 다음과 같다.
가능한 해결책들
- Data Replication(데이터 복제): 표본 수(Sampling 수)가 비슷해질 때까지 사용가능한 데이터를 복제한다.
- Synthetic Data(합성 데이터): 이미지를 예를 들면, 회전, 확장, 자르기, 기존 입력 이미지에 노이즈 추가 및 새 데이터를 생성한다.
- Modified Loss(손실 수정): 작은 샘플 세트를 잘 못 분류할 때 더 큰 오류를 반영하도록 손실을 수정한다.
- Change the algorithm(알고리즘 변경): 두 클래스를 완벽하게 분리할 수 잇도록 모델/알고리즘의 복잡성을 증가시킨다. 하지만 복잡성을 너무 증가시키다 보면 Overfitting(과적합)이 발생할 수 있다.
'컴퓨터공학 > Machine Learning Study' 카테고리의 다른 글
PCA Dimensionality Reduction이란? PCA란? (1) | 2022.11.10 |
---|---|
P-value란? 유의 확률 (0) | 2022.10.26 |
[Machine Learning] Bias-Variance Tradeoff (0) | 2022.09.27 |
[머신러닝 시스템 디자인 스터디 Part5] Performance and Capacity Considerations (0) | 2022.08.18 |
[머신러닝 시스템 디자인 스터디 Part5]Offline model building and evaluation (0) | 2022.08.14 |