saurus2
Saurus2
saurus2
전체 방문자
오늘
어제
  • 분류 전체보기
    • 개발
      • AJAX
    • ML Ops
    • Profile
    • 음식점
    • 배낭여행
    • 컴퓨터공학
      • 알고리즘 공부
      • C++
      • Sever 스터디
      • Java spring
      • 알고리즘 _ 문제해결
      • 딥러닝
      • Java 정리
      • Python
      • LeetCode 1000
      • Machine Learning Study
      • Sign language Detection Pro..
      • LeetCode Solutions
    • 비콘
    • 데일리 리포트
    • 유학일기
      • 영어 공부
      • Daily
    • AI Master Degree
      • Data Mining
      • AI and Data engineering
      • Math Foundations for Decisi..
      • Natural Language Processing

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • 온라인저지
  • 취업준비
  • 파이썬
  • 개발자
  • 취준
  • 딥러닝
  • 알고리즘
  • Python
  • LeetCode
  • two pointer
  • 백준
  • 개발자 취업준비
  • 릿코드
  • 리트코드
  • BFS
  • 딕셔너리
  • 알고리즘문제해결
  • DFS
  • 문제해결능력
  • c++

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
saurus2

Saurus2

WORD AND DOCUMENT EMBEDDINGS 단어와 문서 임베딩이란?
AI Master Degree/Natural Language Processing

WORD AND DOCUMENT EMBEDDINGS 단어와 문서 임베딩이란?

2022. 10. 9. 08:42

단어들의 Semantic (의미)

  • Lexical Semantics (어휘의 의미): 단어들의 의미에 대한 연구 (단어 감각)
    • Synonymy (동의어) 는 단어들 사이에서 정의된다. (단어 감각 아님)
    • 두 단어들은 문장의 진실을 보존하면서 어떤 문장에서든 대체될 수 있다면 Synonymy 이다.
  • Contrast 의 원리
    • 언어적 형태의 차이는 항상 의미의 차이와 관련이 있다.
    • 즉, 정확히 같은 단어는 없다.
      • 예시
        • H2O 와 물은 다른 장르에서 사용된다.

단어 Similarity (유사성) VS Relatedness (연관성)

  • 두 단어가 얼마나 유사한지 정량화하는 것은 질문 답변 (Question-answering), 페러 프레이징  및 요약을 포함한 많은 NLP 작업에서 사용된다.
    • 인간의 Annotations 은 기준선의 역할을 한다.
  • Word relatedness (관련성) or Association (연관성)
    • 커피와 컵은 특징이 없지만 같은 상황에 함께 참여한다. 
  • Semantic field (의미 분야): 특정 영역을 포괄하고 서로 구조화된 관계를 갖는 단어 집합
    • 예시: 병원 분야 - 외과의사, 메스, 간호사, 의약품
  • Semantic frame (의미 프레임): 특정 유형의 이벤트에 대한 관점 또는 참가자를 나타내는 단어 집합
    • 예시: 거래에 대해 서로 다른 관점을 가진 구매자 및 판매자 역할

Connotations (함축적 의미)

  • 글쓴이나 독자의 감정, 의견, 판단 등과 관련된 단어 의미 측면
    • 긍정, 부정, 및 뉘앙스일 수 있음 
      • 예시: Fake, knockoff (가짜), forgery vs replica (복제품)
  • Affective (정서적) 이미의 차원
    • Valence: 유쾌함 (happy vs annoyed)
    • Arousal (각성): 감정의 강도 (enthusiastic vs calm)
    • Dminance (지배력): 통제력 (control vs influence)

기본 단어 임베딩: 1-Hot Vector

  • 단어는 1-hot vector 로 인코딩 될 수 있다.
  • 1-hot vector: 단어가 나타내는 단어에 대한 색인에 1 이 있는 어휘의 크기 = 크기를 갖는 벡터
  • 의미 정보는 없음

 

 

 

 

저작자표시 (새창열림)

'AI Master Degree > Natural Language Processing' 카테고리의 다른 글

Model Evaluation란? 모델 평가란?  (0) 2022.10.10
Semantic Vector Embeddings 의미 벡터 임베딩이란?  (0) 2022.10.09
Naive Bayes & Classification 이란?  (1) 2022.10.08
Model Evaluation란? 모델 평가란?  (1) 2022.10.08
N-Gram language models 이란? 엔 그램 언어 모델들이란?  (2) 2022.10.07
    'AI Master Degree/Natural Language Processing' 카테고리의 다른 글
    • Model Evaluation란? 모델 평가란?
    • Semantic Vector Embeddings 의미 벡터 임베딩이란?
    • Naive Bayes & Classification 이란?
    • Model Evaluation란? 모델 평가란?
    saurus2
    saurus2
    Simple is Best

    티스토리툴바