데이터 전처리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 전처리는 모델의 제약에 맞게 데이터를 변환하고, 데이터 내 오류를 제거하는 과정을 의미한다. 모델의 입력 형식에 맞게 데이터를 조정하거나, 이상치 및 결측값을 처리하는 것을 포함한다. 데이터 마이닝, 시맨틱 데이터 마이닝 등 다양한 분야에서 활용되며, 특히 시맨틱 데이터 전처리는 도메인 지식을 활용하여 데이터 마이닝의 효율성과 정확성을 높인다.

데이터 전처리

📚 더 읽어볼만한 페이지

기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

1. 개요
2. 목적
- 2.1. 모델 제약에의 적합
- 2.2. 데이터 정제 (클리닝)
3. 응용 분야
- 3.1. 데이터 마이닝
- 3.2. 시맨틱 데이터 전처리
  - 3.2.1. 온톨로지 활용
  - 3.2.2. 장점 및 단점

2. 목적

데이터 전처리의 목적은 크게 두 가지로 나뉜다.

* 모델 제약에의 적합: 입력 값의 범위나 차원을 조정한다.
* 클리닝: 이상치 제거나 결손값 처리를 한다.

"가비지 인, 가비지 아웃"이라는 관용구가 이와 관련되어 있다.

2.1. 모델 제약에의 적합

모델은 특정 형태의 데이터를 입력으로 받도록 설계되므로, 데이터 전처리를 통해 모델의 입력 형식에 맞게 데이터를 변환해야 한다. 예를 들어, 입력 값의 범위를 조정하거나 입력 차원을 모델에 맞게 조정하는 작업이 필요하다.

2.2. 데이터 정제 (클리닝)

기계 학습이나 데이터 마이닝에서 모델은 데이터를 기반으로 학습되지만, 데이터에 오류가 포함되어 있을 수 있다. 이러한 오류는 모델 학습을 방해하므로, 데이터 전처리 과정을 통해 제거하거나 적절하게 처리해야 한다.

데이터 정제(클리닝)는 데이터 전처리의 중요한 과정 중 하나로, 다음의 작업을 포함한다.

* 이상치 제거 (스크리닝)
* 결측값 처리

이와 관련된 관용구로 "가비지 인, 가비지 아웃"이 있다.

3. 응용 분야

데이터 전처리는 다양한 분야에서 활용된다.

데이터 마이닝 과정에서 데이터 정리를 통해 원치 않는 데이터를 제거하여 사용자가 더 가치 있는 정보를 얻을 수 있도록 돕는다. 데이터 세트 편집을 통해 데이터 손상이나 오류를 수정하면, 혼동 행렬에서 사용되는 참 양성, 참 음성, 거짓 양성, 거짓 음성과 같은 지표의 정확도를 높일 수 있다.

기계 학습이나 데이터 마이닝에서 모델은 데이터를 기반으로 학습되어 매개변수를 갱신한다. 그러나 데이터가 모델에 적합하지 않은 경우(예: 모델 입력 크기와 데이터 차원의 불일치)가 있어, 학습 이전 단계에서 원시 데이터를 학습 데이터로 변환하는 데이터 전처리 과정이 필요하다.

시맨틱 데이터 마이닝은 도메인 지식과 같은 형식적인 의미론을 데이터 마이닝 과정에 통합하는 방법이다. 도메인 지식은 데이터가 처리된 환경에 대한 지식으로, 전처리 단계에서 중복되거나 일관성이 없는 데이터를 필터링하는 등 데이터 마이닝의 여러 측면에 긍정적인 영향을 미칠 수 있다. 온톨로지는 시맨틱 불일치로 인해 발생하는 데이터, 애플리케이션, 알고리즘 및 결과 간의 격차를 해소하는 데 도움이 된다. 결과적으로 온톨로지와 결합된 시맨틱 데이터 마이닝은 의료, 언어 처리, 은행, 튜터링 등 여러 분야에 활용될 수 있다.

3.1. 데이터 마이닝

데이터 전처리는 데이터 정리를 통해 원치 않는 데이터를 제거하여 사용자가 데이터 마이닝 과정에서 더 가치 있는 정보를 얻을 수 있도록 돕는다. 데이터 세트 편집을 통해 데이터 손상이나 오류를 수정하면, 혼동 행렬에서 사용되는 참 양성, 참 음성, 거짓 양성, 거짓 음성과 같은 지표의 정확도를 높일 수 있다. 사용자는 데이터 파일을 결합하고 전처리를 통해 불필요한 노이즈를 제거함으로써 더 높은 정확도를 달성할 수 있다.

파이썬 프로그래밍 스크립트와 Pandas 라이브러리를 사용하면 쉼표로 구분된 값 형식의 데이터를 데이터 프레임으로 가져올 수 있다. Pandas는 데이터 분석 및 조작을 위한 강력한 도구로, 데이터 시각화, 통계 작업 등을 쉽게 만들어 엑셀 등에서 불가능한 데이터 조작을 가능하게 한다. R 프로그래밍 언어도 이러한 작업에 널리 사용된다.

데이터 전처리에는 누락된 값 채우기, 숫자량 집계, 연속 데이터를 범주로 변환(데이터 구간화) 등이 포함될 수 있다. 주성분 분석 및 특성 선택과 같은 고급 기술은 통계 공식을 사용하여 GPS 추적기 및 모션 캡처 장치에서 기록된 복잡한 데이터 세트에 적용된다.

기계 학습이나 데이터 마이닝에서 모델은 데이터를 기반으로 학습되어 매개변수를 갱신한다. 그러나 데이터가 모델에 적합하지 않은 경우(예: 모델 입력 크기와 데이터 차원의 불일치)가 있다. 따라서 학습 이전 단계에서 사람이 고안한 규칙에 따라 원시 데이터를 학습 데이터로 변환하는 데이터 전처리 과정이 필요하다.

3.2. 시맨틱 데이터 전처리

시맨틱 데이터 마이닝은 데이터 마이닝 과정에 도메인 지식과 같은 형식적인 의미론을 통합하는 방법이다. 도메인 지식은 데이터가 처리된 환경에 대한 지식으로, 전처리 단계에서 중복되거나 일관성이 없는 데이터를 필터링하는 등 데이터 마이닝의 여러 측면에 긍정적인 영향을 미칠 수 있다. 또한, 도메인 지식은 제약 조건으로 작동하여 검색에 필요한 공간을 줄이고 데이터의 가이드 역할을 수행한다.

위 다이어그램은 데이터 세트를 도메인 특성(도메인 지식)과 실제 획득한 데이터 두 부분으로 나누고, 도메인 특성을 처리하여 사용자가 이해하는 도메인 지식으로 만든다. 한편, 데이터 세트는 처리 및 저장되어 도메인 지식을 데이터에 적용하여 온톨로지를 형성한다. 이렇게 형성된 온톨로지를 사용하여 데이터를 분석하고 결과를 처리할 수 있다.

3.2.1. 온톨로지 활용

온톨로지는 시맨틱 불일치로 인해 발생하는 데이터, 애플리케이션, 알고리즘 및 결과 간의 격차를 해소하는 데 도움이 된다. 결과적으로 온톨로지와 결합된 시맨틱 데이터 마이닝은 시맨틱 모호성이 데이터 시스템의 유용성과 효율성에 영향을 미칠 수 있는 의료, 언어 처리, 은행, 튜터링 등 여러 분야에 활용될 수 있다.

잘 설계된 온톨로지에 통합된 잘 구조화된 형식적 의미론은 기계가 쉽게 읽고 처리할 수 있는 강력한 데이터를 반환할 수 있다. 예를 들어, 환자가 응급 상황을 겪고 있으며 병원으로 급히 이송되고 있을 때, 응급 구조대는 환자에게 투여할 최상의 약물을 파악해야 한다. 일반적인 데이터 처리에서는 환자의 모든 의료 데이터를 검색하여 최상의 치료법을 찾는 데 시간이 너무 오래 걸려 환자의 건강이나 생명을 위협할 수 있다. 그러나 시맨틱하게 처리된 온톨로지를 사용하면 응급 구조대가 환자의 생명을 구할 수 있다. 시맨틱 리즈너와 같은 도구는 환자의 의료 기록에 사용된 자연어를 검사하여 온톨로지를 통해 특정 암이나 기타 질병 유무와 같은 환자의 병력을 기반으로 환자에게 투여할 최상의 약물을 추론할 수 있다.

하지만 이러한 접근 방식에는 몇 가지 단점이 있다. 즉, 비교적 작은 데이터 세트에서도 높은 수준의 계산 능력과 복잡성이 필요하다.

3.2.2. 장점 및 단점

시맨틱 데이터 전처리는 데이터 추출의 효율성과 정확성을 높일 수 있다는 장점이 있다. 도메인 지식을 활용하여 중복되거나 일관성이 없는 데이터를 걸러내고, 데이터 검색 공간을 줄여 데이터 마이닝 과정을 효율적으로 만든다. 예를 들어, 의료 분야에서 응급 환자 발생 시, 시맨틱하게 처리된 환자의 의료 기록 온톨로지를 통해 응급 구조대는 환자에게 투여할 최적의 약물을 빠르게 파악할 수 있다.

하지만 시맨틱 데이터 전처리는 높은 계산 능력과 복잡성을 요구한다는 단점도 있다. 이로 인해 시스템 구축 및 유지 관리에 더 많은 비용이 들고 어려움이 커질 수 있다. 데이터 세트가 잘 정돈되어 있어도 표준 데이터 처리에 비해 복잡성이 높은 편이다.