차원 축소 (통계학)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
차원 축소는 데이터 분석에서 입력 변수(특징)의 수를 줄이는 기법을 의미한다. 이는 특징 선택과 특징 추출의 두 가지 주요 접근 방식으로 나뉜다. 특징 선택은 주어진 과제에 적합한 특징의 부분 집합을 찾는 과정으로, 필터, 래퍼, 내장형 전략을 사용한다. 특징 추출은 데이터를 고차원 공간에서 저차원 공간으로 변환하는 과정으로, 주성분 분석(PCA), 비음수 행렬 분해(NMF), 오토인코더, t-SNE, UMAP 등이 사용된다. 차원 축소는 데이터의 차원의 저주를 완화하고 k-NN 알고리즘 적용 전에 전처리하는 데 사용되며, 신경과학 분야에서 최대 정보 차원 기법으로 활용되기도 한다.
더 읽어볼만한 페이지
- 차원 축소 - 독립 성분 분석
독립 성분 분석(ICA)은 데이터가 통계적으로 독립적인 성분들의 혼합이라는 가정하에, 데이터에서 독립적인 성분들을 찾아내는 통계적 계산 방법으로, 다양한 알고리즘 개발을 거쳐 블라인드 신호 분리, 뇌파 분석, 얼굴 인식 등 여러 분야에 응용된다. - 차원 축소 - 특징 선택
특징 선택은 머신러닝에서 모델 성능 향상과 해석력 증진을 위해 데이터에서 가장 관련성 높은 특징들의 부분 집합을 선택하는 과정으로, 통계적 방법에서 시작하여 필터 방법, 래퍼 방법, 임베디드 방법 등 다양한 알고리즘과 메타휴리스틱 알고리즘을 활용한다. - 기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다. - 기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
차원 축소 (통계학) | |
---|---|
정의 | |
설명 | 고려 대상인 랜덤 변수의 수를 줄이는 과정 |
관련 항목 | |
관련 항목 | 기계 학습 데이터 마이닝 |
2. 특징 선택
특징 선택은 주어진 데이터에서 가장 유용한 특징(feature)들을 선택하는 방법이다. 중복되거나 관련 없는 특징을 제거하여 모델의 성능을 향상시키고, 계산 비용을 절감하는 데 기여한다.
특성 선택은 주어진 과제에 적합한 입력 변수(특징 또는 속성)의 부분 집합을 찾는 것을 목표로 한다. 주요 전략은 다음과 같다:
- 필터 전략: 정보 이득과 같은 방법을 사용한다.
- 래퍼 전략: 정확도 기반 검색과 같이, 특정 모델의 성능을 최적화하는 특징 집합을 찾는다.
- 내장형 전략: 예측 오류에 따라 모델을 구축하는 동안 특성이 추가되거나 제거된다.
회귀 분석이나 분류와 같은 데이터 분석은 원래 공간보다 차원을 축소한 공간에서 수행하는 것이 더 정확하다고 여겨진다.[3][26]
3. 특징 추출
특징 추출은 원본 데이터의 특징을 조합하거나 변환하여 새로운 특징을 생성하는 방법이다. 데이터의 잠재적인 구조를 파악하고, 더 유용한 특징 표현을 얻는 데 사용된다.
주요 기법
- 주성분 분석 (PCA): 데이터의 공분산 행렬을 계산하고, 이 행렬의 고유 벡터를 사용하여 데이터를 저차원 공간에 선형적으로 매핑한다. 이 방법은 저차원 표현에서 데이터의 분산을 최대화한다.[4][5]
2D 점 집합에 대한 PCA 투영의 시각적 묘사. - 비음수 행렬 분해 (NMF): 비음수 행렬을 두 개의 비음수 행렬의 곱으로 분해한다. 천문학과 같이 비음수 신호만 존재하는 분야에서 유용하게 사용된다.[7][8][9][10]
- 커널 주성분 분석: 커널 트릭을 사용하여 주성분 분석을 비선형적으로 적용하는 방법이다.
- 매니폴드 학습: 아이소맵, 지역 선형 임베딩(LLE),[13] 헤시안 LLE, 라플라시안 고유 맵, 접선 공간 분석 기반 방법 등이 있다. 이러한 기법들은 데이터의 지역적 특성을 유지하는 비용 함수를 사용하여 저차원 데이터 표현을 구성한다.[14]
- 최대 분산 언폴딩 (MVU): 반정부호 계획법을 사용하여 커널을 학습하는 기법이다.
- 다차원 척도법: 입력 및 출력 공간의 거리 간 차이를 측정하는 비용 함수를 최소화하는 방법이다.
- 확산 맵: 데이터 공간에서 확산 거리를 사용하는 방법이다.
- t-분포 확률적 이웃 임베딩 (t-SNE): 점 쌍에 대한 분포 간의 발산을 최소화하는 방법으로, 고차원 데이터 시각화에 유용하다.[18]
- 오토인코더: 병목 은닉층을 가진 피드포워드 신경망의 일종으로, 비선형 차원 축소에 사용된다.[15]
오토인코더의 개략도. 인코더에 의해 차원이 축소되고, 디코더는 차원 축소된 표현으로부터 원래 차원의 데이터를 복원한다. - 선형 판별 분석 (LDA): 객체 또는 이벤트의 두 개 이상의 클래스를 특징짓거나 분리하는 특징의 선형 조합을 찾는 방법이다.
2차원 점 집합에 대한 결과적인 LDA 투영의 시각적 묘사. - 일반화된 판별 분석 (GDA): 커널 함수 연산자를 사용하여 비선형 판별 분석을 수행한다.
- 균일 매니폴드 근사 및 투영 (UMAP): 비선형 차원 축소 기법으로, 데이터가 국소 연결된 리만 다양체에 균일하게 분포하고 리만 계량이 국소적으로 일정하거나 거의 일정하다고 가정한다.
4. 차원 축소의 응용
차원 축소는 k-최근접 이웃(k-NN) 알고리즘을 적용하기 전에 차원의 저주를 완화하기 위해 수행될 수 있다.[19]
특징 추출과 차원 축소는 주성분 분석(PCA), 선형 판별 분석(LDA), 캐노니컬 상관 분석(CCA), 비음수 행렬 분해(NMF) 기법을 사용하여 데이터를 전처리하고, 축소된 차원 공간에서 특징 벡터에 대해 k-NN을 통해 클러스터링하는 한 단계로 결합될 수 있다. 기계 학습에서 이 과정은 저차원 임베딩이라고도 한다.[20]
지역 민감 해싱, 랜덤 프로젝션,[21] "스케치",[22] VLDB 컨퍼런스 툴박스의 다른 고차원 유사성 검색 기술을 사용하면, 고차원 데이터 집합(예: 실시간 비디오 스트림, DNA 데이터, 고차원 시계열)에 대한 유사성 검색을 수행할 때 빠른 '''근사''' k-NN 검색이 가능할 수 있다.
신경과학에서 때때로 사용되는 차원 축소 기법은 최대 정보 차원(maximally informative dimensions)이며, 이는 원래 데이터에 대한 최대한의 상호 정보를 보존하는 방식으로 데이터 집합의 저차원 표현을 찾는다.[23]
참조
[1]
논문
Dimensionality Reduction: A Comparative Review
https://members.lori[...]
2009-10-26
[2]
서적
Feature Extraction, Construction and Selection
[3]
논문
Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution
https://rielac.cujae[...]
[4]
서적
Foundations of Multidimensional and Metric Data Structures
Morgan Kaufmann
[5]
간행물
Adaptive Dimension Reduction for Clustering High Dimensional Data
https://escholarship[...]
Proceedings of International Conference on Data Mining
[6]
논문
A Survey of Multilinear Subspace Learning for Tensor Data
https://www.dsp.utor[...]
[7]
논문
Learning the parts of objects by non-negative matrix factorization
[8]
간행물
Algorithms for Non-negative Matrix Factorization
https://proceedings.[...]
MIT Press
[9]
논문
K-corrections and filter transformations in the ultraviolet, optical, and near infrared
[10]
논문
Non-negative Matrix Factorization: Robust Extraction of Extended Structures
[11]
arXiv
Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data
2016-12-19
[12]
논문
Using Data Imputation for Signal Separation in High Contrast Imaging
[13]
논문
Nonlinear Dimensionality Reduction by Locally Linear Embedding
[14]
논문
Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment
2004
[15]
간행물
Dimensionality Reduction Methods for HMM Phonetic Recognition
http://ws2.binghamto[...]
ICASSP
[16]
논문
Generalized Discriminant Analysis Using a Kernel Approach
[17]
논문
CloudID: Trustworthy cloud-based and cross-enterprise biometric identification
[18]
서적
Similarity Search and Applications
Springer International Publishing
2017
[19]
간행물
When is "nearest neighbor" meaningful?"
http://citeseerx.ist[...]
"Database Theory—ICDT99"
[20]
서적
Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09
[21]
서적
Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01
[22]
서적
High Performance Discovery in Time Series
Springer
[23]
Citation
Bayesian Comparisons Between Representations
https://arxiv.org/ab[...]
2024-11-13
[24]
논문
Paintings and writings in the hands of scientists
https://doi.org/10.1[...]
2007-04
[25]
Citation
Novel Methods for Feature Subset Selection with Respect to Problem Knowledge
https://doi.org/10.1[...]
Springer US
1998
[26]
논문
Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution
https://rielac.cujae[...]
[27]
서적
Foundations of Multidimensional and Metric Data Structures
Morgan Kaufmann
[28]
간행물
Adaptive Dimension Reduction for Clustering High Dimensional Data
https://escholarship[...]
Proceedings of International Conference on Data Mining
[29]
논문
A Survey of Multilinear Subspace Learning for Tensor Data
https://www.dsp.utor[...]
[30]
논문
K-corrections and filter transformations in the ultraviolet, optical, and near infrared
[31]
논문
Non-negative Matrix Factorization: Robust Extraction of Extended Structures
[32]
논문
Learning the parts of objects by non-negative matrix factorization
[33]
간행물
Algorithms for Non-negative Matrix Factorization
https://proceedings.[...]
MIT Press
[34]
논문
非負値行列因子分解を用いたテキストデータ解析
https://doi.org/10.2[...]
2015
[35]
arXiv
Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data
2016-12-19
[36]
논문
Using Data Imputation for Signal Separation in High Contrast Imaging
2020
[37]
논문
オートエンコーダによる低次元化と可視化
https://doi.org/10.3[...]
2018
[38]
논문
Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection
https://link.springe[...]
Springer International Publishing
2017
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com