AI Master Degree/Natural Language Processing
Transformers 란? 트랜스포머란?
RNNS의 문제점 긴 문장을 다루기 어렵다 - information loss (정보가 손실 된다.) 학습이 어렵다. - 학습이 길어지면 Gradient(경사도)가 사라진다. 이러한 문제점들 때문에 Recuurent Connection이 없는 트랜스포머가 개발이 되었다. Transformer 구성요소 트랜스포머는 일련의 입력값들이 사용되며, 결과값은 입력 값의 길이와 같다. 예시: input(x1, ..., xn)와 output(y1, ..., yn) 트랜스포머는 트랜스포머 블록들을 Stack으로 구성한다. 각 트랜스포머는 간단한 Linear layers, Feed forward network layer, 그리고 self-attention layer들을 가지고 있다. Self-attention이란? Sel..
Long Shorter-Term Memory 네트워크란? LSTM이란?
LSTM을 알아보기 전, RNN의 단점 Hidden State로 인코딩된 정보는 최근이며, 정보를 빠르게 잊어버리는 경향이있다. E.g. The flights the airline was canceling were full RNN은 현재 의사 결정/출력에 유용한 정보를 제공하고 향후 의사 결정을 위해 정보를 전달하는 두 가지 작업을 동시에 수행하기 때문이다. Hidden Layer에서 많은 곱셈 작업으로 인해 그라데이션 문제가 사라진다. Long shorter-term memory(LSTM) 네트워크란? LSTM에는 네트워크를 통한 정보(컨텍스트)의 흐름을 제어하는 게이트가 있다. 각 게이트는 시그모이드 활성화 함수가 있는 Feed Forward 네트워크이다. 게이트의 출력은 게이트가 적용되는 레이어와 ..
Recurrent Neural Network란?
Recurrent Neural Network (RNN) 이란? RNN 은 하나 이상의 Cycle 를 갖는 신경망이다. 하지만, 제한되지 않은 Connectivity (연결성) 을 가진 RNN 은 훈련과 분석이 어렵다. 그래서, Constrained RNNs (제한된) 을 생각해보자. RNN 의 개요 네트워크는 한 번에 하나의 입력을 처리한다. 각 단계는 t 시간 시점과 연관된 것을 알 수 있다. Recurrent connection 은 현재 시간 단계에서 이전 시간 단계의 학습한 정보를 고려할 수 있기 때문에 'memory' 라고 볼 수 있다. Feed Forward 네트워크와 다른점은 별개의 Weight 매트릭스 U가 있고 이전 시간 h_(t-1) 단계의 활성화 함수를 사용하는 것이다. RNN에서의 ..
Word2Vec 이란?
Dense Embedding 50 - 1000 차원의 고밀도 임베딩 크기 어휘 크기 10,000 개 또는 문서 말뭉치 크기 100만개 와 동일한 차원의 희소 임베딩 보다 Dense Embedding NLP 작업에서는 Spare 임베딩 보다 더 잘 작동한다. 모델은 더 적은 무게 (fewer features) 를 요구하므로 과적합될 가능성이 적다. 거리 측정 metrics 는 저 차원에서 더 잘 작동한다. 유사한 단어는 저차원에서 더 명확하게 관련된다. Word2Vec Static Embedding 을 학습한다. 각 단어는 그것이 나타나는 맥락과 관계없이 동일한 벡터 임베딩을 갖는다. self-supervision 을 갖는다. (no supervised signal) 실행 중인 텍스트의 다음 단어를 sup..
Logistic Regression 이란?
Probabilistic Machine Learning 요소 입력의 특징 Representation 각 관측치에 대해 각 특징에 대한 값을 갖는 벡터가 있다. Classification Function 분류를 수행하는 데 사용할 함수 Objective function for learning 분류의 최적 매개 변수를 찾을 수 있는 공식 (교육 예제의 오류를 최소화하는 데 중점을 둔다.) 목적 함수를 최적화하기 위한 알고리즘 목표 함쉬의 최소값을 찾는 효율적인 방법 모델링 단계: 교육 및 테스트 Logistic Regression 이란? 로지스틱 회귀 분석이란? 교육 세트를 사용하여 가중치 벡터와 Bias 용어를 학습한다. 각 가중치는 특정 형상의 영향을 완화하기 위해 사용된다. 이것은 단일 관측치에 대한..
Model Evaluation란? 모델 평가란?
Generalize 일반화 능력 Supervised 기계 학습 알고리즘은 존재하는 예제에서 존재하지 않는 예제로 일반화 할 수 있어야 한다. 모델의 일반화 능력을 시뮬레이션하기 위해 일반적으로 교육 세트에 대해 교육을 받고 테스트한다. Training data 와 Test Data 세트는 동일한 기본 확률 분포에서 나온다는 가정이 있다. Training Data VS Test Data 데이터들은 Training, Dev (development, validation), Test set 들로 나뉘어 진다. Training set: 모델을 교육하는데 사용 Dev set: 후보 모델과 모델 매개 변수를 평가하고 가장 좋은 것을 선택할때 사용 Test set: 알고리즘이 미세 조정된 후에 모델을 테스트하는 데만 ..
Semantic Vector Embeddings 의미 벡터 임베딩이란?
Distributional Hypothesis 분포 가설 분포 가설: 단어가 분포하는 방식과 의미 사이에는 연관성이 있다. 유사한 단어들은 (예시: "occulist 와 "eye-doctor") 는 유사한 환경/상황 (예시: "eye" 와 "exam") 에서 발생한다. 두 단어의 의미 차이는 그들의 "환경" 의 차이에 해당한다. 백터 임베딩은 (분포 가설과 백터 표현 접근법에 따라) 단어 분포에 기반한 단어의 학습된 표현이다. Vector Embedding 벡터 임베딩 백테 임베딩에서 각 단어 또는 문서는 다차원 공간의 한 점이다. 임베딩은 한 공간에서 다른 공간으로 매핑하는 것이다 - 이 경우 단어에서 숫자 벡터로 변환한다. Sparse Embeddings (희소 임베딩) - 단어 수 및 동시 발생 (..
WORD AND DOCUMENT EMBEDDINGS 단어와 문서 임베딩이란?
단어들의 Semantic (의미) Lexical Semantics (어휘의 의미): 단어들의 의미에 대한 연구 (단어 감각) Synonymy (동의어) 는 단어들 사이에서 정의된다. (단어 감각 아님) 두 단어들은 문장의 진실을 보존하면서 어떤 문장에서든 대체될 수 있다면 Synonymy 이다. Contrast 의 원리 언어적 형태의 차이는 항상 의미의 차이와 관련이 있다. 즉, 정확히 같은 단어는 없다. 예시 H2O 와 물은 다른 장르에서 사용된다. 단어 Similarity (유사성) VS Relatedness (연관성) 두 단어가 얼마나 유사한지 정량화하는 것은 질문 답변 (Question-answering), 페러 프레이징 및 요약을 포함한 많은 NLP 작업에서 사용된다. 인간의 Annotation..