특징 (기계 학습)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
특징(feature)은 기계 학습에서 객체를 나타내는 데 사용되는 개별 측정값이나 속성을 의미한다. 특징은 수치형과 범주형으로 분류되며, 기계 학습 알고리즘에 따라 적절한 형태로 변환되어 사용된다. 특징 벡터는 수치형 특징을 나타내는 데 사용되며, 분류, 특징 선택, 추출, 표현 학습 등 다양한 기계 학습 작업에 활용된다. 특징 추출은 데이터를 특징량 공간으로 투영하는 과정이며, 특징 엔지니어링, 특징 학습, 표현 학습 등을 통해 이루어진다. 특징은 태스크의 입력으로 사용되거나, 파인 튜닝, 생성 작업 등에도 활용된다.
더 읽어볼만한 페이지
- 데이터 마이닝 - 클러스터 분석
클러스터 분석은 유사한 특성을 가진 데이터 객체들을 그룹으로 묶는 기계 학습 기법으로, 다양한 알고리즘과 모델을 기반으로 하며 여러 분야에서 활용되고 클러스터링 결과는 다양한 방식으로 평가된다. - 데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다. - 기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다. - 기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
특징 (기계 학습) | |
---|---|
개요 | |
유형 | 측정 가능한 속성 또는 특징 |
설명 | 기계 학습 모델이 학습할 수 있도록 데이터를 나타내는 데 사용되는 개별 측정 가능한 속성 또는 특징 |
관련 분야 | 기계 학습 패턴 인식 |
특징 공학 | |
특징 선택 | 주어진 문제에 가장 관련성이 높은 특징을 선택하는 과정. 모델의 성능을 향상시키고 계산 복잡성을 줄임. |
특징 추출 | 원시 데이터를 변환하여 새로운 특징을 생성하는 과정. 원래 데이터에서 더 유용하고 표현력 있는 특징을 추출. |
특징의 종류 | |
수치형 특징 | 연속적이거나 이산적인 숫자 값을 가짐. 예: 나이, 온도, 가격. |
범주형 특징 | 제한된 수의 범주 또는 레이블 중 하나를 가짐. 예: 성별, 색상, 제품 카테고리. |
텍스트 특징 | 텍스트 데이터에서 추출된 특징. 예: 단어 빈도, TF-IDF 값, 감성 점수. |
특징 표현 | |
원-핫 인코딩 (One-Hot Encoding) | 범주형 특징을 이진 벡터로 변환하는 방법. 각 범주에 대해 하나의 요소만 1이고 나머지는 0인 벡터를 사용. |
워드 임베딩 (Word Embedding) | 단어를 저차원 실수 벡터로 표현하는 방법. 단어 간의 의미적 관계를 반영. |
2. 특징의 유형
특징은 크게 수치형 특징과 범주형 특징으로 나눌 수 있다.
- 수치형 특징: 척도로 측정할 수 있는 연속적인 값으로, 기계 학습 알고리즘에 직접 사용할 수 있다.
- 범주형 특징: 범주로 그룹화할 수 있는 개별 값으로, 기계 학습 알고리즘에 사용하기 전에 수치형 특징으로 변환해야 한다.
사용하는 기계 학습 알고리즘에 따라 적절한 특징 유형을 선택하거나 변환해야 한다. 의사 결정 트리는 수치형 및 범주형 특징을 모두 처리할 수 있지만, 선형 회귀는 수치형 특징만 처리할 수 있다.
2. 1. 수치형 특징
수치형 특징은 척도로 측정할 수 있는 연속적인 값이다. 나이, 키, 몸무게, 소득 등이 수치형 특징의 예시이다. 수치형 특징은 기계 학습 알고리즘에 직접 사용할 수 있다.2. 2. 범주형 특징
범주형 특징은 성별, 색상, 우편 번호 등과 같이 범주로 그룹화할 수 있는 개별 값이다. 범주형 특징은 일반적으로 기계 학습 알고리즘에 사용되기 전에 원-핫 인코딩, 레이블 인코딩, 순서형 인코딩과 같은 다양한 기술을 사용하여 수치형 특징으로 변환해야 한다.3. 특징의 분류
특징 벡터는 특징을 수치적으로 표현한 것이다. 이진 분류를 수행하는 방법 중 하나는 특징 벡터를 입력으로 사용하는 선형 예측 함수(퍼셉트론 관련)를 이용하는 것이다. 이 방법은 특징 벡터와 가중치 벡터의 내적을 계산하여 결과가 임계값을 넘는 관측치를 분류한다.
생 데이터는 항상 좋은 형태가 아니므로, 변형을 통해 좋은 형태로 만들어야 효과적으로 데이터를 활용할 수 있다. 이렇게 변형되어 후속 작업에 사용되는 값이 특징이다. 특징은 생 데이터에서 전문가의 지식을 이용하거나, 기계 학습을 통해 추출된다.
특징은 분류(사진 → 특징 → 물체 카테고리), 생성(문자 → 특징 → 이미지), 압축(음성 → 특징 → 음성) 등 다양한 용도로 활용된다. 용도에 따라 특징이 가져야 할 특성이 다르며, 예를 들어 압축용 특징은 크기가 중요하지만 다른 용도에서는 덜 중요할 수 있다.
3. 1. 특징 벡터를 활용한 분류 알고리즘
특징 벡터를 활용하여 분류하는 알고리즘에는 최근접 이웃 분류, 신경망, 베이즈 접근법과 같은 통계적 분류 기법이 있다.[1]4. 특징의 예시
문자 인식의 특징으로는 히스토그램, 내부 구멍 수, 스트로크 감지 등이 있다. 음성 인식에서 음소 인식을 위한 특징은 잡음비, 소리 길이, 상대 전력, 필터 일치 등이다. 스팸 감지 알고리즘의 특징으로는 특정 이메일 헤더 유무, 이메일 구조, 언어, 특정 용어 빈도, 텍스트 문법 정확성 등이 있다. 컴퓨터 비전에는 가장자리, 객체 등 많은 특징이 존재한다.
생 데이터는 항상 좋은 형태가 아니기에, 같은 의미를 가진 두 속성이 중복되거나, 두 의미가 하나의 값에 섞이는 경우가 있다. 생 데이터를 변형하여 좋은 형태로 만들면 데이터를 효과적으로 이용할 수 있다. 이렇게 변형되어 후속 작업에 사용되는 값이 '''특징'''이다.
특징은 생 데이터에서 추출되며, 전문가 지식을 이용하거나 기계 학습을 통해 데이터에서 학습하는 방식으로 추출한다.
특징은 분류(사진 → 특징 → 물체 카테고리), 생성(문자 → 특징 → 이미지), 압축(음성 → 특징 → 음성) 등에 사용된다. 용도에 따라 특징이 가져야 할 특성이 다르며, 압축용 특징은 크기가 중요하지만 다른 용도에서는 우선순위가 낮다.
4. 1. 문자 인식
문자 인식에서 특징은 수평 및 수직 방향의 검은색 픽셀 수를 세는 히스토그램, 내부 구멍의 수, 스트로크 감지 등을 포함할 수 있다.4. 2. 음성 인식
음성 인식에서 음소 인식을 위한 특징에는 잡음비, 소리의 길이, 상대 전력, 필터 일치 등이 포함될 수 있다.4. 3. 스팸 메일 감지
스팸 감지 알고리즘에서 특징은 특정 이메일 헤더의 존재 또는 부재, 이메일 구조, 언어, 특정 용어의 빈도, 텍스트의 문법적 정확성 등을 포함할 수 있다.4. 4. 컴퓨터 비전
컴퓨터 비전에는 특징으로 사용할 수 있는 것들이 매우 많다. 예를 들어 가장자리나 객체 등이 있다.[1]5. 특징 벡터
패턴 인식과 기계 학습에서 '''특징 벡터'''는 어떤 객체를 수치적으로 표현하는 n차원 벡터이다. 기계 학습 알고리즘은 처리와 통계적 분석을 용이하게 하기 위해 객체의 수치적 표현을 필요로 한다. 이미지를 표현할 때 특징 값은 이미지의 픽셀에 해당할 수 있고, 텍스트를 표현할 때 특징은 텍스트 용어의 발생 빈도일 수 있다. 특징 벡터는 선형 회귀와 같은 통계 절차에 사용되는 설명 변수의 벡터와 동일하며, 선형 예측 함수를 구성하기 위해 내적을 사용하여 가중치와 결합, 예측 점수를 결정한다.
5. 1. 특징 공간
패턴 인식과 기계 학습에서 '''특징 벡터'''는 어떤 객체를 나타내는 숫자 특징의 n차원 벡터이다. 기계 학습의 많은 알고리즘은 객체의 수치적 표현을 필요로 하는데, 이러한 표현이 처리와 통계적 분석을 용이하게 하기 때문이다.이러한 벡터와 관련된 벡터 공간은 '''특징 공간'''이라고 불린다. 특징 공간의 차원을 줄이기 위해 여러 차원 축소 기법을 사용할 수 있다.
5. 2. 특징 구성
패턴 인식과 기계 학습에서, 기존 특징으로부터 상위 수준의 특징을 생성하여 특징 벡터에 추가할 수 있다. 예를 들어 질병을 연구할 때, '나이'라는 특징은 유용하며, '사망 연도' - '출생 연도'로 정의할 수 있다. 이러한 과정을 '''특징 구성'''이라고 한다.[2][3]특징 구성은 기존 특징 집합에 일련의 구성 연산자를 적용하여 새로운 특징을 구성하는 것이다. 구성 연산자의 예시로는 등식 조건 {=, ≠}, 산술 연산자 {+,−,×, /}, 배열 연산자 {max(S), min(S), average(S)} 등이 있다. 또한, 특정 조건 C를 만족하는 특징 벡터 S에서 특징 수를 세는 count(S,C)나,[4] 일부 수용 장치에 의해 일반화된 다른 인식 클래스까지의 거리와 같은 보다 정교한 연산자도 있다.
특징 구성은 특히 고차원 문제에서 정확성과 구조 이해를 모두 높이는 강력한 도구로 오랫동안 여겨져 왔다.[5] 특징 구성은 질병 연구,[5] 음성으로부터의 감정 인식[6] 등에 적용된다.
6. 특징 선택 및 추출
초기 원시 특징 집합은 중복되거나 너무 클 수 있으므로, 기계 학습 및 패턴 인식 응용 분야에서는 학습을 용이하게 하고 일반화 및 해석 가능성을 개선하기 위해 특징의 부분 집합을 선택하거나 새로운 축소된 특징 집합을 구성하는 예비 단계를 거친다.[7] 특징 추출 및 선택은 기술과 과학의 조합이며, 이를 수행하는 시스템 개발을 특징 엔지니어링이라고 한다. 이는 자동화된 기술과 도메인 전문가의 직관 및 지식을 결합하여 여러 가능성을 실험하는 것을 포함한다. 특징 학습은 이 과정을 자동화한 것으로, 기계가 학습을 위해 특징을 사용할 뿐만 아니라 특징 자체를 학습한다.
6. 1. 특징 엔지니어링
초기 원시 특징 집합은 중복될 수 있고 너무 커서 추정 및 최적화가 어렵거나 비효율적일 수 있다. 따라서 많은 기계 학습 및 패턴 인식 응용 분야의 예비 단계는 학습을 용이하게 하고 일반화 및 해석 가능성을 개선하기 위해 특징의 부분 집합을 선택하거나 새로운 축소된 특징 집합을 구성하는 것으로 구성된다.[7]특징을 추출하거나 선택하는 것은 기술과 과학의 조합이며, 이를 수행하는 시스템을 개발하는 것을 특징 엔지니어링이라고 한다. 이는 여러 가능성을 실험하고 자동화된 기술과 도메인 전문가의 직관 및 지식을 결합해야 한다. 이 프로세스를 자동화하는 것이 특징 학습이며, 여기서 기계는 학습을 위해 특징을 사용할 뿐만 아니라 특징 자체를 학습한다. 전문가의 지식을 활용한 수작업 변환 규칙 탐구는 특징 엔지니어링[9]이라고 하며, 기계 학습에 의한 경우는 표현 학습이라고 한다.
6. 2. 특징 학습
초기 원시 특징 집합은 중복될 수 있고 너무 커서 추정 및 최적화가 어렵거나 비효율적일 수 있다. 따라서 많은 기계 학습 및 패턴 인식 응용 분야의 예비 단계는 학습을 용이하게 하고 일반화 및 해석 가능성을 개선하기 위해 특징의 부분 집합을 선택하거나 새로운 축소된 특징 집합을 구성하는 것으로 구성된다.[7]특징을 추출하거나 선택하는 것은 기술과 과학의 조합이며, 이를 수행하는 시스템을 개발하는 것을 특징 엔지니어링이라고 한다. 이는 여러 가능성을 실험하고 자동화된 기술과 도메인 전문가의 직관 및 지식을 결합해야 한다. 이 프로세스를 자동화하는 것이 특징 학습이며, 여기서 기계는 학습을 위해 특징을 사용할 뿐만 아니라 특징 자체를 학습한다.
7. 특징 추출 (표현 학습)
특징 추출은 데이터를 변환하여 생성하는 과정으로, 전문가의 지식을 활용한 수작업 변환 규칙 탐구는 특징 엔지니어링이라고 하며, 기계 학습에 의한 경우는 표현 학습이라고 한다.[9] 특징 추출은 관측값이나 생 데이터를 특징량 공간으로 투영한다는 의미에서 "임베딩(embedding)"이라고도 불린다. 자연어 처리에서는 단어에 대한 특징 추출이 "단어 임베딩 (word embedding)"이라고 불린다.
7. 1. 표현 학습 (Representation Learning, Feature Learning)
표현 학습(representation learning, feature learning영어)은 기계 학습을 통해 특징을 추출하는 방법이다.표현 학습에는 다양한 기법이 있다.[10] 다음은 그 예시이다.
- 주성분 분석 (PCA)
- 선형 판별 분석 (LDA)
- BERT
변환 기법은 선형/비선형, 지도 학습/자기 지도 학습/비지도 학습, 얕은/깊은 등 다양한 기준으로 분류할 수 있다.
거리 학습은 데이터를 가측 공간에 임베딩하는 학습이므로, 표현 학습으로 이용할 수 있다.[11]
특정 특징량 세트에서 유용한 것만 선택하는 것을 특징 선택이라고 한다.
7. 1. 1. 사전 학습 (Pretraining)
사전 학습(pretraining영어)은 과제 학습 전에 표현 학습을 수행하는 경우를 의미한다. 사전 학습은 과제 학습과 분리 가능하므로, 표현 학습에서는 대량의 데이터를 사용한 비지도 사전 학습(unsupervised pretraining영어)을 수행하고, 과제 학습에서 레이블이 있는 지도 학습을 수행할 수도 있다.[11]8. 특징의 특성 및 평가
특징은 그 용도에 따라 다양한 특성을 요구받는다. 예를 들어 압축용 특징은 크기가 중요하지만, 다른 용도에서는 우선순위가 낮다. 특징 추출 비용, 인간 해석 가능성, 후속 과제의 성능 등은 중요한 고려 사항이다.[12]
8. 1. 특징의 평가 지표
특징량은 용도에 맞춰 다양한 특성을 요구받는다. 추출 비용, 인간 해석성, 후속 과제의 성능 등이 중요한 관점이다. 특징량은 이산(discrete)과 연속(continuous)의 두 가지로 분류된다. 이산 특징량은 유한한 집합이며, 연속 특징량은 차원이 설정되어 그 안이 연속되어 있다. 특징량 공간의 가측(可測) 여부도 중요한 특성이며, 속성의 얽힘(entanglement) 또한 고려해야 한다.특징량 평가에는 다양한 지표가 존재하며, 하위 태스크에 따라 적절한 지표를 선택해야 한다. 평가 방법의 예시는 다음과 같다.
9. 특징의 활용
특징은 생 데이터(raw data)에서 추출되며, 전문가의 지식을 이용해 고안되거나 기계 학습을 통해 데이터로부터 학습된다.
특징은 분류(사진 → 특징 → 물체 카테고리), 생성(문자 → 특징 → 이미지), 압축(음성 → 특징 → 음성) 등 다양한 작업에 활용된다. 용도에 따라 특징이 가져야 할 특성은 다르다. 예를 들어 압축용 특징은 크기가 중요하지만, 다른 용도에서는 크기의 우선순위가 낮다.
특징과 작업을 분리하는 방식에 따라 크게 두 가지 사용 방법으로 분류할 수 있다.
9. 1. 태스크 입력 (Feature-based Approach)
특징량은 과제와 그 학습에 대한 입력으로 사용될 수 있다(feature-based approach)[14]。 이는 특징 추출과 과제를 분리할 수 있기 때문이다.장점으로는 다른 데이터 세트를 이용한 특징량과 과제의 학습이 가능하다는 점이 있다. 예를 들어 물체 식별 과제에는 레이블이 있는 데이터가 필요하며(지도 학습), 데이터 수집에는 노력이 많이 든다. 반면, 이미지의 표현 학습에는 레이블이 없는 사진을 사용하는 기법(비지도 학습·자기 지도 학습)이 있으며, 이는 적은 노력으로 대량의 데이터를 수집할 수 있다. 따라서 대량의 데이터에 의한 표현 학습으로 뛰어난 특징량을 얻고, 뛰어난 특징량과 레이블을 사용하여 소량의 데이터로 과제 학습을 수행함으로써 뛰어난 식별기를 얻을 수 있다.
9. 2. 파인 튜닝 (Fine-tuning Approach)
표현 학습과 태스크 학습은 분리 가능하지만, 완전히 분리하지 않고 단계적으로 진행할 수도 있다. 즉, 표현 모델을 먼저 학습시키고(사전 학습), 그 위에 표현 모델과 태스크 모델을 연결하여 일체화한 후 태스크 학습을 수행한다(파인 튜닝, fine-tuning approach)[15]。 사전 학습과 태스크 학습에서 서로 다른 데이터를 이용할 수 있기 때문에 분리했을 때와 동일한 이점을 얻을 수 있다. 또한 표현 모델 부분도 태스크에 최적화되는 특징이 있다. 언어 모델에서 BERT가 그 현저한 예이다[16]。9. 3. 생성 (Generation)
특징은 생성 작업에도 활용될 수 있으며, 생성되는 속성을 조작하는 데 사용될 수 있다. 예를 들어, 얼굴 사진 생성에서 머리 색깔을 지정하는 경우, 머리 색깔을 특징으로 입력할 수 있다면 가능하다. 이때, 머리 색깔 특징이 다른 속성을 손상시키지 않아야 하므로, 생성용 특징에는 디스엔탱글먼트가 종종 요구된다.오토인코더의 잠재 표현(latent representation)은 특징으로 활용될 수 있다.
참조
[1]
서적
Pattern recognition and machine learning
Springer
[2]
서적
Feature Selection for Knowledge Discovery and Data Mining
https://books.google[...]
Kluwer Academic Publishers
[3]
논문
Iterative feature construction for improving inductive learning algorithms
https://www.scienced[...]
2009-03
[4]
간행물
Data-driven constructive induction: a methodology and its applications
1998-03
[5]
서적
Classification and regression trees
Wadsworth
[6]
논문
Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis
https://ieeexplore.i[...]
IEEE
[7]
서적
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
https://books.google[...]
Springer
2009
[8]
논문
An overview on data representation learning: From traditional feature learning to recent deep learning
[9]
논문
An overview on data representation learning: From traditional feature learning to recent deep learning
[10]
논문
An overview on data representation learning: From traditional feature learning to recent deep learning
[11]
논문
Supervised Contrastive Learning
[12]
논문
A Simple Framework for Contrastive Learning of Visual Representations
[13]
논문
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[14]
논문
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[15]
논문
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[16]
논문
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[17]
문서
구문 패턴 인식 혹은 구조 패턴 인식에서 이를 다룬다.
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com