Text Normalization

    Text normalization 이란? 텍스트 정규화란?

    Text normalization 이란? 테스트를 처리할때 텍스트를 편리한 표준 형식으로 변환하는 것을 포함한다. Text normalization 과정 텍스트 전체를 문장으로 분할 문장들을 단어들로 분할(Tokenization) 단어 형식을 표준화 단어 Tokenization 알고리즘 Regular Expression-based 접근 방식(정규식 기반) 정규식을 사용하여 토큰화를 진행하면 토큰화 속도가 매우 빠르다. Penn Treebank 토큰화(펜트 트리뱅크) 하이픈으로 연결된 단어를 하나의 토큰으로 유지 구두점을 별도의 토큰으로 유지 Linguistic Data Consortium 에서 배포하는 많은 기본 데이터 세트를 토큰화에 사용 하위 단어 토큰화 e.g. Byte-Pair Encoding(B..