분류 전체보기
Classification Regression
Multilayer aritifical neural networks (ANN) ReLU : rectified linear unit Output in the hidden layer : go back previous layer again. (process, in many layers) Two types Ouput, probability 0 ~ 1. Optimize the weights are Training. M is nodes, hidden layer : M + 1 Hidden Layer, Support vector machhines
Analysis of Variance
ANOVA = Analysis of Variance 분산분석 분산분석은 독립변수가 하나이고 측정 집단이 3개 이상일때, 그 결과를 검증할때 사용한다. 예외로 T-test와 Paired T-test는 독립변수가 하나이고 집단이 2개일 때만 사용할 수 있다. Treatment : Cyl 실린더, Multiple Observations y-bar : Global Average , 각각 실린더에 따른 평균을 구한다. SS = Sum of Squares 제곱합 각각의 평균에서 전체 평균(각 평균들의 평균)을 뺀 값을 제곱하여 총 개수 n을 곱한다.
Chap. Bayesian Classifiers
머신러닝 알고리즘 중에서 가장 단순, 적은 연산으로 훌륭한 성능을 보여주는 분류기 Classifier 이다. Posterior = Likelihood x Prior / Model Evidence 사후 확률 가능도 사전확률 모델에 대한 증거 H : 가설, E : 증거 베이지안 이론 예제 환자가 Stiff neck 을 가졌다면, meningitis 일 확률은 얼마일까? meningitis 가 stiff neck 을 발병할 확률은 50%, meningitis 사전 확률은 1 / 50,000, stiff neck 은 1/ 20 이다. 베이지안 이론에 따른 P(M|S) 는 0.5 x 1/50000 / ( 1 / 20 ) = 0.0002 이다. M : Meningitis = Hypothesis 가설, S : Sti..
No module named 'pgmpy' 에러, 주피터 노트북에서
아래와 같은 ModuleNotFoundError가 발생했다면, pgmpy 패키지가 설치 되지 않아서 오류가 발생한다. 아래 코드를 터미널에서 실행해서 설치해야한다. python 버전은 최신버전으로 해도 상관없다. conda create -n env_bnlearn python=3.8 conda activate env_bnlearn conda install -c ankurankan pgmpy 설치후에 주피터 노트북을 재실행하고 다시 시도해보자. 만약에 진행이 안된다면, 파이참을 실행해서 모듈을 import 한 후에 파이참에서 되는지 확인해보자. 파이참에서 진행이 잘된다면 주피터 노트북에서도 사용할 수 있다.
Chap 9. Statistics Part 2
Confidence Intervals란? Confidence Intervals 신뢰구간은 모수가 실제로 포함되는 것으로 예측되는 범위이다. 전체를 연구하는 것은 어렵기 때문에 샘플링하여 모수 범위를 추정할때 신뢰구간을 사용한다. Standard Deviation : 20mm Mean : 175mm 10 bottles of the new Shampoo 파란 부분 : Critical Region Acceptable Region : Critical Region을 제외한 부분 162.6 175, Mu 187.4, mu = 175) = 0.025 + 0.025 = 0.05% 5%의 임의 샘플들은 ..
Chap 7. Decision Tree 결정 트리
Decision Tree 란? 일련의 분류 규칙을 통해 데이터를 분류하고 회귀하는 지도 학습(Supervised Learning) 모델이다. 데이터의 모양은 Tree Structure로 나타내기 때문에 Decision Tree라고 부른다. Decision Tree Induction Algorithm Hunt's Algorithm CART ID3, C4.5, C5.0 SLIQ and SPRINT Decision Tree는 Attribute 속성과 어떻게 의사결정을 몇개로 나눌 것인지에 따라 다르게 형성할 수 있다. Attribute types : Binary, Nominal, Ordinal, Continuous Split way : 2-way split, Multi-way split Nominal Attr..
Midterm Preparation : Data Mining
목차 WSS, BSS Minkowski Jaccard coefficient Bisecting K means DBSCAN BSS, WSS, SSE란? SSE : WSS WSS : Within sum of squares 군집 내에서의 응집력(Cohesion)을 의미한다. BSS : Between-group sum of squares 군집이 다른 군집과 얼마나 다른지, 잘 분리되어 있는지를 의미한다. SSE : Total sum of squared Errors K 는 cluester들의 수를 의미한다. WSS와 BSS를 합하면 클러스터 수와 상관없이 일정하다. Minkowski Distance란? 유클리드 거리와 맨해튼 거리를 일반화 한것이다. p = 1 : 맨허튼 거리와 동일, L1 Norm p = 2 : ..