전체 글

전체 글

    WORD AND DOCUMENT EMBEDDINGS 단어와 문서 임베딩이란?

    WORD AND DOCUMENT EMBEDDINGS 단어와 문서 임베딩이란?

    단어들의 Semantic (의미) Lexical Semantics (어휘의 의미): 단어들의 의미에 대한 연구 (단어 감각) Synonymy (동의어) 는 단어들 사이에서 정의된다. (단어 감각 아님) 두 단어들은 문장의 진실을 보존하면서 어떤 문장에서든 대체될 수 있다면 Synonymy 이다. Contrast 의 원리 언어적 형태의 차이는 항상 의미의 차이와 관련이 있다. 즉, 정확히 같은 단어는 없다. 예시 H2O 와 물은 다른 장르에서 사용된다. 단어 Similarity (유사성) VS Relatedness (연관성) 두 단어가 얼마나 유사한지 정량화하는 것은 질문 답변 (Question-answering), 페러 프레이징 및 요약을 포함한 많은 NLP 작업에서 사용된다. 인간의 Annotation..

    Github clone 할때 xcode agreement 에러 해결 방법

    맥북에서 git clone 으로 파일을 다운로드 받을때 발생하는 문제 git clone 명령어가 안되거나, "Agreeing to the Xcode/iOS license requires admin privileges, please re-run as root via sudo." 와 같은 메세지가 나와서 xcode agreement 에 관련한 내용을 읽어야 하는 문제가 발생했다. 아래와 같은 명령어를 치면 해결이 된다. sudo xcodebuild -license accept

    Naive Bayes & Classification 이란?

    Naive Bayes & Classification 이란?

    Machine Learning 이란? 머신 러닝 분야는 다음과 같은 질문에 답한다. 경험과 함께 자동으로 개선되는 컴퓨터 시스템을 어떻게 구축할 수 있으며, 모든 학습 프로세스를 지배하는 기본 법칙은 무엇인가? 일반적인 유형의 Machine Learning 문제 Classification (분류) [라벨/카테고리 예측] Regression (회귀 분석) [값 예측] Clurstering [유사한 항복을 함께 그룹화] ML 의 주요 유형 Supervised Learning: Agent 가 입출력 Pair (쌍) 을 관찰하고(훈련) 입력에서 출력으로 매핑하는 기능을 학습 e.g. Agent 는 "자동차" 또는 "인간" 으로 표시된 여러 이미지에 대해 훈련을 받고 결과 모델을 사용하여 Agent 가 이전에 보..

    Model Evaluation란? 모델 평가란?

    Model Evaluation란? 모델 평가란?

    Machine Learning Model Evaluation 에 대한 일반적인 접근법 Training Set 는 모델을 훈련하는데 사용 Dev Set 는 Cadidate 모델과 Model parameters 를 평가해서 가장 좋은 것을 선택할때 사용 Test Set 는 알고리즘이 fine-tuned (미세 조정) 된 이후에 모델을 테스트하는 것에만 사용 훈련 되지 않은 Test set 을 사용하면 모델이 Unseen data 들을 생성시킬 수 있다. 평가의 종류 Intrinsic Evaluation 고유 평가 다양한 Performance Metrics 와 독립적인 특정 어플리케이션을 기반으로 모델을 평가한다. 예시: 두 개의 서로 다른 언어 모델이 테스트 세트에 얼마나 적합한지 측정 (테스트 세트에 더 ..

    [LeetCode] 974. Subarray Sums Divisible by K

    974. Subarray Sums Divisible by K Medium Given an integer array nums and an integer k, return the number of non-empty subarrays that have a sum divisible by k. A subarray is a contiguous part of an array. Example 1: Input: nums = [4,5,0,-2,-3,1], k = 5 Output: 7 Explanation: There are 7 subarrays with a sum divisible by k = 5: [4, 5, 0, -2, -3, 1], [5], [5, 0], [5, 0, -2, -3], [0], [0, -2, -3], ..

    [LeetCode] 713. Subarray Product Less Than K

    713. Subarray Product Less Than K Medium Given an array of integers nums and an integer k, return the number of contiguous subarrays where the product of all the elements in the subarray is strictly less than k. Example 1: Input: nums = [10,5,2,6], k = 100 Output: 8 Explanation: The 8 subarrays that have product less than 100 are: [10], [5], [2], [6], [10, 5], [5, 2], [2, 6], [5, 2, 6] Note that..

    N-Gram language models 이란? 엔 그램 언어 모델들이란?

    N-Gram language models 이란? 엔 그램 언어 모델들이란?

    Language Models 이란? 단어들로 구성된 Sequences 에 Probabilities 확률을 할당하는 것을 의미한다. Language Model 이란 단어의 조합이 Sequence/String 에 포함될 Probability 가능성을 설명하는 확률 분포 e.g. 영어에서 'Do I dare disturb the universe?' 가 likelihood 가 높은 반면에 'Universe dare the I disturb do' 는 낮은 수치를 가진다. Language Model 은 단어로 구성된 Sequence 들의 전체 Joint probability 분포를 획득한다. 확률 기본 개념 P(Weather, Cavity) 와 같은 Joint probability distribution 은 모든..

    [LeetCode] 523. Continuous Subarray Sum

    523. Continuous Subarray Sum Medium Given an integer array nums and an integer k, return true if nums has a continuous subarray of size at least two whose elements sum up to a multiple of k, or false otherwise. An integer x is a multiple of k if there exists an integer n such that x = n * k. 0 is always a multiple of k. Example 1: Input: nums = [23,2,4,6,7], k = 6 Output: true Explanation: [2, 4..