'Word' 로 취급하고 싶은 것은 무엇인가?
- 문서 또는 텍스트 말뭉치 내의 최소 단위 (Token) 은 무엇인지 결정해야한다.
- 특정 응용 프로그램에 대해 보관할 Token 이나 제거할 Token 을 결정해야한다.
각 단어와 각 문장 부호 'punctuation' 은 일반적으로 다른 Token 이다.
- 문장 부호는 문장의 경계, 의미 측면에서 질문 등을 식별하는 데 도움이 될 수 있다.
- 때때로 단어내의 부분 텍스트도 Token 이라고 할 수 있다.
- e.g. 'uh' 와 'main-' 은 'I do uh main- mainly business data processing' 과 같은 말하는 문장 (구어) 에서 Token 역할을 한다.
Inflection 이란?
- 단어가 시제, 대소문자, 음석, 사람, 숫자, 성별과 같은 다양한 문법 범주를 표현하도록 수정되는 형성 과정이다.
- Inflected(굴절): e.g. 'eat', 'eats', 'eating' -> 'eat'
- Derived(파생): e.g. 'democracy' -> 'democratize'
단어를 어떻게 구별하는가?
- 대소문자는 응용 프로그램에서 중요하거나 중요하지 않을 수 있다.
- 일반적으로 Inflection (굴절)은 하나의 단어로 취급한다, e.g. cat vs cats
- Lemma (기본적 단어) 는 말의 중요한 부분 혹은 같은 줄기에서 나온 단어 어휘 현태들의 집합이다.
- Word form 은 단어의 완전한 Inflection 및 derived 된 형태를 의미한다.
Types VS Tokens (타입 대 토큰)
- 문서안에 있는 다른 단어들을 단어의 'Types' 라고 부른다.
- 고유한 type 의 집합은 Corpus (말뭉치) 와 관련된 어휘를 형성한다.
- e.g. 'The cats and the dogs' 이 문장은 4가지의 types 을 포함한다.
- Corpus 안에 있는 단어들의 총 개수는 전체 토큰의 개수와 같다.
- e.g. 'The cats and the dogs' 는 5개의 토큰을 가지고 있다.
Language Variablity 언어 가변성
- 사회적 그룹이나 위치에 따라 다른 형태의 언어가 존재한다.
- 방언
- 아프리카계 미국인 영어(African American English AAE)
- 아프리카계 미국인 모국어 영어(African American Vernacular English AAVE)
- 말하는 언어(구어)와 글로쓰는 언어(문어)의 차이점이 존재한다.
- 하나의 문장에서도 여러 언어의 단어를 섞어쓴다 - Code Switching
'AI Master Degree > Natural Language Processing' 카테고리의 다른 글
Model Evaluation란? 모델 평가란? (1) | 2022.10.08 |
---|---|
N-Gram language models 이란? 엔 그램 언어 모델들이란? (2) | 2022.10.07 |
Text normalization 이란? 텍스트 정규화란? (0) | 2022.10.06 |
Regular Expressions 이란? 정규식이란? (0) | 2022.10.06 |
NLP 란? Natural Language Processing 자연어 처리란? (1) | 2022.10.05 |