saurus2
Saurus2
saurus2
전체 방문자
오늘
어제
  • 분류 전체보기
    • 개발
      • AJAX
    • ML Ops
    • Profile
    • 음식점
    • 배낭여행
    • 컴퓨터공학
      • 알고리즘 공부
      • C++
      • Sever 스터디
      • Java spring
      • 알고리즘 _ 문제해결
      • 딥러닝
      • Java 정리
      • Python
      • LeetCode 1000
      • Machine Learning Study
      • Sign language Detection Pro..
      • LeetCode Solutions
    • 비콘
    • 데일리 리포트
    • 유학일기
      • 영어 공부
      • Daily
    • AI Master Degree
      • Data Mining
      • AI and Data engineering
      • Math Foundations for Decisi..
      • Natural Language Processing

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • BFS
  • 딕셔너리
  • two pointer
  • 개발자
  • Python
  • 알고리즘문제해결
  • 리트코드
  • 파이썬
  • 릿코드
  • 백준
  • 딥러닝
  • 취준
  • 알고리즘
  • 취업준비
  • 문제해결능력
  • DFS
  • 온라인저지
  • c++
  • 개발자 취업준비
  • LeetCode

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
saurus2

Saurus2

AI Master Degree/Natural Language Processing

NLP 란? Natural Language Processing 자연어 처리란?

2022. 10. 5. 15:03

Natural Language Processing(NLP) 란?

NLP 는 언어를 소리내어 말하는 구어, 그리고 글로쓰는 문어를 생성하고 이해하는 것을 다루며, 인공지능의 가장 중요한 분야이다.

자언여 처리 응용 프로그램의 예

  • Information retrieval 정보 검색
    • Information retrieval 은 일부 문서 집합안의 D 문서에서 Query q(사용자가 요청한 정보) 와 가장 잘 맞는 문서 d 를 찾는 작업이다. 
    • 보통 한개의 문서가 찾아지는 대신에 하나의 문서 목록이 검색되는 경우가 많다.
  • Information extraction 정보 추출
    • 구조화 되지 않은 텍스트를 구조화된 데이터로 가공한다.
    • 객체들 간의 의미적인 관계를 추출한다. 예를 들어 X 는 Y 에 속하고 X 는 Y 의 자식이다.
    • 이벤트들을 추출하고 하나의 이벤트에 여러개의 참조가 있는 경우에 선택을 하기 위해 필요하다. 예를 들어 두 항공사의 운임 요금 증가에 대한 같은 이벤트에서 어느 한 비행사를 선택해야하는 경우가 있다.
    • 시간이나 날짜를 추출
  • Question answering 질문 답변
    • 인간에게 정보를 제공하는 예
      • 가상 비서 대화
      • 검색 엔진과 상호 작용
      • 데이터 베이스와 상호 작용
    • 질문 답변은 이상적인 경우에, 의미적인 답변을 찾는 것에 더 치우쳐져있으며, 순수한 정보 검색(IR) 보다 하나의 답변에 집중 되어 있다.
    • 일반적으로 Factoid question-answering 은 문서에서 텍스트 관련 구문을 검색하기 위한 정보 검색을 사용하며, 질문에 대답하기 위한 이해 알고리즘을 읽는 것을 사용한다. 
  • Speech to text 구어를 글로 변환
  • Text summarization 텍스트 요약
    • 문서나, 텍스트 및 채팅 대화 목록, 혹은 회의 등의 텍스트에서 요약을 생성한다.
  • Sentiment analysis 감성 분석 (텍스트에 들어있는 주관적인 정보를 분석)
  • Fake news detection 가짜 뉴스 탐지
  • Text generation 텍스트 생성
  • Chatbots 챗봇

자연어 처리 분야가 어려운 이유

  1. Homonymy - 동음이의어
  2. Lexical ambiguity - 어휘적 모호성
  3. Coreference resolution 이 어려움 (상호 참조)
  4. 명확하기 정의되어 있지 않은 Grammar
  5. Vagueness - 모호성

자연어 처리의 윤리적 문제 

  1. 강력한 감시 체계가 될 수 있으며, 개인 정보 보호 침해의 가능성
  2. 채용과 같은 상황에서 정보 수집 및 편견에 대해 모호
  3. 인간을 다루는데 더 효과적인 기술, 인간 기관의 영향성
  4. 일반적인 작업들에 영향을 미칠 수 있는 가능성

함정 예시

  • 가치 정렬 문제
    • 예를 들어, 자율 주행 자동차에서 운전자가 직장에 빨리 데려다줘 라고 했을때, 말 그대로 빠른게 우선이 아니라 자동차는 다른 보행자에게 피혜를 끼치지 않고 운전자를 데려다 줘야한다. 

설명 가능성

  • 일반적인 알고리즘은 블랙박스 형태이기 때문에 이런 결과가 왜 나오는지 알 수 없다.
  • 종종 NLP 알고리즘은 매우 큰 데이터 셋으로 훈련이되는데, 이 알고리즘의 훈련이 잘된건지 아닌건지 알 수 있을까? 혹은 편파적인 결정을 내린다거나 아예 예측한 것과 다른 결과를 내고 심지어 위험할 수도 있다.
  • 어떻게 NLP 모델을 배포하기 전에 항상 사용할 수 있는 방법은 무엇이 있는가?

지속 가능성

  • 딥 러닝의 발전은 모델의 크기를 커지게하고 훈련해야할 데이터 셋을 더 크게 만들었다. 만일 GPT-3 모델을 저비용 클라우드에서 훈련시킨다면 최대 460만 달러가 필요하다.

NLP 와 사이버보안에 대한 고려사항

  • 인공지능은 사이버 공격에 대한 탐지 능력을 향상시킬 수 있으나 반대로 공격의 효과도 증폭시킬 수 있다.
  • 개인화를 통한 소셜 엔지니어링 공격은 더욱 강력해질 수 있다.
  • 신뢰할 수 있는 개인화된 지능형 비서는 많은 문제를 일으킬 수 있다. 
저작자표시 (새창열림)

'AI Master Degree > Natural Language Processing' 카테고리의 다른 글

Model Evaluation란? 모델 평가란?  (1) 2022.10.08
N-Gram language models 이란? 엔 그램 언어 모델들이란?  (2) 2022.10.07
Text normalization 이란? 텍스트 정규화란?  (0) 2022.10.06
Words 에 대해서?  (0) 2022.10.06
Regular Expressions 이란? 정규식이란?  (0) 2022.10.06
    'AI Master Degree/Natural Language Processing' 카테고리의 다른 글
    • N-Gram language models 이란? 엔 그램 언어 모델들이란?
    • Text normalization 이란? 텍스트 정규화란?
    • Words 에 대해서?
    • Regular Expressions 이란? 정규식이란?
    saurus2
    saurus2
    Simple is Best

    티스토리툴바