Data 란?
데이터 객체들과 그들의 Attributes-속성들의 수집 형태.
Attribute 란?
한 객체의 속성이나 특성. 또한 Attribute 는 variable, field, characteristic, feature로도 알려져있다.
여러 개의 Attribute가 하나의 객체를 묘사, 설명한다. 즉 하나의 객체는 여러개의 Attribute로 구성되어 있다.
Example : Eye color, Temperature
Measurements 란?
규칙이나 함수로써 값들을 Attribute로 할당하는 방법이다. Mearsurement 자체가 각각 Attributes의 속성들을 모두 만족, 매칭시키지 않으며 각 상황, 조건 등에 의해 다양한 Measurement가 가능하다.
Attribute의 형태?
Attribute는 대표적으로 4가지의 다른 형태를 띈다.
- Nominal(명사 형태) : ID, Eye color, Zip codes, Gender(male, female)
- Ordinal(숫자 형태) : Rankings, Grades, Height(tall, medium, short), Hardness(good, better, best)
- Interval(간격 형태) : Calendar dates, Temperatures(Celsius/Fahrenheit).
- Ratio(비율 형태) : Temperature(Kelvin), Length, Time, Counts, Age, Mass, Current.
Discrete Attribute 란?
단지 하나의 무한하거나 샐 수 있는 무한한 값들의 집합. Discrete attribute는 정수 변수로 사용된다.
Binary attribute는 Discrete Attribute들 중에 한가지 특징적인 케이스이다.
Example : Zip codes, Counts, Set of words in collection of documents.
Continuous Attribute 란?
실제 숫자들이며, Attribute values를 뜻한다. 그리고 실수로 표현되며 유한한 자릿수의 숫자들로 나타낸다.
Example : Temperature, Height, Weight.
Asymmetric Binary Attributes 란?
비대칭 Attributes라고 부르며, 하나의 속성을 나타내기위해 꼭 2개의 값 0, 1이 필요하다. 일반 0이아닌 속성값들과 달리 Attribute에 대한 존재 및 상태를 나타내게된다. 예를 들어, 비슷한 상품인지 아닌지에 대해 1, 0로, 갯수나 확률이 적을경우 0 클경우 1로 표기한다.
Example : Jaccard Distance 사용 (유사도 측정)
Data sets 종류
Record : Attributes의 집한으로 구성되어 있는 데이터 형태
- Data Matrix : 고정된 숫자 Attributes를 가진 데이터 객체라면, 다차원 공간에 데이터들을 저장할 수 있다.
- Document data : 각 문서는 "용어(단어" 벡터가 되며, 각각의 용어는 벡터의 구성요소이다. 각 구성요소의 값은 Document의 용어를 나타낸다.
- Transaction data : 특정 형태의 Record data이며 각 record는 아이템들의 집함을 포함한다.
Graph
- World Wide Web : Example, Generic graph, a molecule, and webpasges
- Molecular structures : 트랜젝션들의 순서들, Example, Genomic sequence data, 시계열 데이터, Spatial data
Ordered
- Temporal data
- Sequential data
- Genetic sequence data
- Spatial data
Structured Data, 구조적 데이터의 특징
- Dimensionality (Number of attributes)
- Curse of dimensionlaity : 차원의 저주, 수학적 공간 차원이 늘어나면서, 데이터 사이의 거리가 멀어지고, 빈공간이 증가하는 공간의 Sparsity가 생긴다. 이때 문제 계산시에 발생하는 시간이 지수적으로 커지는 문제가 발생한다.
- Sparsity : 희소성, 전체 공간에 비해 데이터가 있는 공간이 매우 협소함을 나타낸다.
- Resolution : 스케일에 따른 패턴들
- Distribution : 중심성과 분산
Data Quality란?
퀄리티가 낮은 데이터들은 데이터 처리에 부정적인 영향을 많이 끼친다. 그래서 그러한 문제들을 데이터 전처리 과정에서 보완하거나 수정해야 효율적인 Data Mining이 가능하다.
Noise Data란?
임의의 에러 혹은 변화를 말한다. 예를 들어, 결함이 있는 데이터 수집 도구, 데이터 입력, 데이터 전송 문제 등이 있다.
해결방법 :
Binning method : 데이터를 정렬하고 동일한 깊이의 빈들로 분할한다. 그리고 smooth하게 만들기위해 평균, 중앙값, 경계 등을 사용할 수 있다.
Clustering : 이상치(Outliers)를 제거하거나 발견할 수 있다.
Combined computer and human Inspection : 컴퓨터와 사람이 함께 조사를 시행한다.
Outliers 란?
이상치(Outliers)는 데이터 집합에서 객체들의 특성과 차이가 많이나서, 따로 떨어져 발견되는 데이터를 의미한다.
이상치들이 노이즈를 만들어 분석을 방해하거나, 분석의 목적이 이상치가 되버리는 문제들이 발생할 수 있다.
Missing Values 란?
데이터를 수집할때, 정보를 얻지 못하거나, 모든 경우에 대해 속성들이 적용될 수 없을때 발생한다.
해결방법 : 데이터 객체나, 변수들을 제거하거나 Missing Values 자체를 추정해야한다. 또한 분석에 있어 Missing Value를 무시할 수 도 있다.
Duplicate Data 란?
중복된 데이터를 말한다. 또한 데이터 집합은 서로 중복된 데이터 객체들이나 다른 것과 거의 똑같은 데이터를 포함할 가능성이 있다. 예를 들어 한사람이 다수의 이메일을 가지고 있을 상황이 발생할 수 있다. 이를 위해 중복된 데이터를 처리하는 Data Cleaning이 필요하다.
'AI Master Degree > Data Mining' 카테고리의 다른 글
Midterm Preparation : Data Mining (0) | 2021.10.14 |
---|---|
Chapter 3. Data preprocessing이란? (0) | 2021.10.12 |
Chapter 1. Data mining이란? (0) | 2021.10.12 |
Data Mining 기본 용어 정리 (0) | 2021.10.11 |
Chapter 5. Clustering - 02 (0) | 2021.09.29 |