통계적 가설 검정
Statistical Hypothesis Test(통계적 가설 검정)은 통계적 추론의 하나이다.
모집단 실제의 값이 얼마가 된다는 주장과 관련하여 표본의 정보를 사용하여 가설의 합당성 여부를 판정하는 과정이다.
간단하게 말하면 가설 검정 또는 가설 검증이라고 부르기도 한다.
P-value(Probability Value), 유의 확률
통계적 가설 검정에서 유의 확률(Significance Probability, Asymptotic Significance) 또는 p-value(Probability Value)는 귀무 가설이 맞다고 가정할 때, 결과보다 극단적인 결과가 실제로 관측될 확률이다.
실험의 표본 공간에서 정의되는 확률 변수이며 0 ~ 1 사이의 값을 가진다.
p-value는 귀무 가설(Null Hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률 이다.
즉 귀무 가설이 참이라는 가정 아래 얻은 통계량이 얼마나 귀무가설을 지지하는지 나타내는 확률이다.
즉, 귀무가설을 채택할지 기각할지를 판단할때 기준으로 p-value를 사용할 수 있다.
Ref: https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0
쉬운 이해
쉬운 P-value 이해: 어떤 사건이 우연히 발생할 확률이 얼마일까?
왜 P-value는 항상 0.05 보다 작아야 하는가? 유의 수준(Significant Level 5%) = 기각 역
P-value는 확률이므로 5%이며, 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미가 된다.
즉, 우연히 발생할 가능성이 적으며 이유, 인과관계가 있다라고 해석할 수 있다.
Ref: https://www.youtube.com/watch?v=5Xke4ao1g9E
예시
- 가설 검정
- H0: 귀무 가설
- H1: 대립 가설
작은 P-value를 얻게된다면 H0(귀무 가설)이 참일 확률이 적어진다.
- P-value < 0.05(0.01): 귀무가설이 참일 확률이 매우 작음
- P-value > 0.1: 귀무가설이 참일 확률이 매우 큼
5%부터 10%사이는 보통 주관적으로 판단한다.
예시 1
- H0: 집단 A의 평균이 10이다.
- H1: 집단 A의 평균이 10이 아니다.
- 검정통계량: T = x_bar - 10 (귀무 가설에서 지정한 값, 주관적으로 주장하는 값)
- 검정통계랑(차이 값)이 P-value이며, P-value = P(Y > T), Y ~ 분포(특정한 분포를 따름)
- T가 10.5 일때, P-value는 P(Y > 10.5)는 0과 거의 같다.
- T의 값이 거의 나오지 않기 때문에 값이 크다고 볼 수 있으며 귀무가설은 기각된다.
ref: https://www.youtube.com/watch?v=tpow70KGTYY&t=3s
'컴퓨터공학 > Machine Learning Study' 카테고리의 다른 글
PCA Dimensionality Reduction이란? PCA란? (1) | 2022.11.10 |
---|---|
Imbalanced Data in Classification, 분류에서 불안정한 데이터 (0) | 2022.10.26 |
[Machine Learning] Bias-Variance Tradeoff (0) | 2022.09.27 |
[머신러닝 시스템 디자인 스터디 Part5] Performance and Capacity Considerations (0) | 2022.08.18 |
[머신러닝 시스템 디자인 스터디 Part5]Offline model building and evaluation (0) | 2022.08.14 |