Natural Language Processing(NLP) 란?
NLP 는 언어를 소리내어 말하는 구어, 그리고 글로쓰는 문어를 생성하고 이해하는 것을 다루며, 인공지능의 가장 중요한 분야이다.
자언여 처리 응용 프로그램의 예
- Information retrieval 정보 검색
- Information retrieval 은 일부 문서 집합안의 D 문서에서 Query q(사용자가 요청한 정보) 와 가장 잘 맞는 문서 d 를 찾는 작업이다.
- 보통 한개의 문서가 찾아지는 대신에 하나의 문서 목록이 검색되는 경우가 많다.
- Information extraction 정보 추출
- 구조화 되지 않은 텍스트를 구조화된 데이터로 가공한다.
- 객체들 간의 의미적인 관계를 추출한다. 예를 들어 X 는 Y 에 속하고 X 는 Y 의 자식이다.
- 이벤트들을 추출하고 하나의 이벤트에 여러개의 참조가 있는 경우에 선택을 하기 위해 필요하다. 예를 들어 두 항공사의 운임 요금 증가에 대한 같은 이벤트에서 어느 한 비행사를 선택해야하는 경우가 있다.
- 시간이나 날짜를 추출
- Question answering 질문 답변
- 인간에게 정보를 제공하는 예
- 가상 비서 대화
- 검색 엔진과 상호 작용
- 데이터 베이스와 상호 작용
- 질문 답변은 이상적인 경우에, 의미적인 답변을 찾는 것에 더 치우쳐져있으며, 순수한 정보 검색(IR) 보다 하나의 답변에 집중 되어 있다.
- 일반적으로 Factoid question-answering 은 문서에서 텍스트 관련 구문을 검색하기 위한 정보 검색을 사용하며, 질문에 대답하기 위한 이해 알고리즘을 읽는 것을 사용한다.
- 인간에게 정보를 제공하는 예
- Speech to text 구어를 글로 변환
- Text summarization 텍스트 요약
- 문서나, 텍스트 및 채팅 대화 목록, 혹은 회의 등의 텍스트에서 요약을 생성한다.
- Sentiment analysis 감성 분석 (텍스트에 들어있는 주관적인 정보를 분석)
- Fake news detection 가짜 뉴스 탐지
- Text generation 텍스트 생성
- Chatbots 챗봇
자연어 처리 분야가 어려운 이유
- Homonymy - 동음이의어
- Lexical ambiguity - 어휘적 모호성
- Coreference resolution 이 어려움 (상호 참조)
- 명확하기 정의되어 있지 않은 Grammar
- Vagueness - 모호성
자연어 처리의 윤리적 문제
- 강력한 감시 체계가 될 수 있으며, 개인 정보 보호 침해의 가능성
- 채용과 같은 상황에서 정보 수집 및 편견에 대해 모호
- 인간을 다루는데 더 효과적인 기술, 인간 기관의 영향성
- 일반적인 작업들에 영향을 미칠 수 있는 가능성
함정 예시
- 가치 정렬 문제
- 예를 들어, 자율 주행 자동차에서 운전자가 직장에 빨리 데려다줘 라고 했을때, 말 그대로 빠른게 우선이 아니라 자동차는 다른 보행자에게 피혜를 끼치지 않고 운전자를 데려다 줘야한다.
설명 가능성
- 일반적인 알고리즘은 블랙박스 형태이기 때문에 이런 결과가 왜 나오는지 알 수 없다.
- 종종 NLP 알고리즘은 매우 큰 데이터 셋으로 훈련이되는데, 이 알고리즘의 훈련이 잘된건지 아닌건지 알 수 있을까? 혹은 편파적인 결정을 내린다거나 아예 예측한 것과 다른 결과를 내고 심지어 위험할 수도 있다.
- 어떻게 NLP 모델을 배포하기 전에 항상 사용할 수 있는 방법은 무엇이 있는가?
지속 가능성
- 딥 러닝의 발전은 모델의 크기를 커지게하고 훈련해야할 데이터 셋을 더 크게 만들었다. 만일 GPT-3 모델을 저비용 클라우드에서 훈련시킨다면 최대 460만 달러가 필요하다.
NLP 와 사이버보안에 대한 고려사항
- 인공지능은 사이버 공격에 대한 탐지 능력을 향상시킬 수 있으나 반대로 공격의 효과도 증폭시킬 수 있다.
- 개인화를 통한 소셜 엔지니어링 공격은 더욱 강력해질 수 있다.
- 신뢰할 수 있는 개인화된 지능형 비서는 많은 문제를 일으킬 수 있다.
'AI Master Degree > Natural Language Processing' 카테고리의 다른 글
Model Evaluation란? 모델 평가란? (1) | 2022.10.08 |
---|---|
N-Gram language models 이란? 엔 그램 언어 모델들이란? (2) | 2022.10.07 |
Text normalization 이란? 텍스트 정규화란? (0) | 2022.10.06 |
Words 에 대해서? (0) | 2022.10.06 |
Regular Expressions 이란? 정규식이란? (0) | 2022.10.06 |