맨위로가기

익스트림 러닝 머신

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

익스트림 러닝 머신(ELM)은 단일 은닉층 피드포워드 신경망(SLFN)을 기반으로 하는 머신 러닝 알고리즘이다. 2001년부터 2010년까지 SLFN의 통합 학습 프레임워크 연구가 진행되었으며, 2010년부터 2015년까지는 커널 학습, 서포트 벡터 머신(SVM) 등의 특징 학습 방법론으로 확장되었다. 2015년부터 2017년까지는 ELM의 계층적 구현에 대한 연구가 이루어졌으며, 2017년 이후에는 수렴 문제를 해결하기 위한 연구가 진행되었다. ELM은 보편적 근사 및 분류 능력을 가지며, 다양한 활성화 함수와 아키텍처를 사용할 수 있다. ELM의 신뢰성과 관련된 연구와 학계의 논쟁도 존재한다.

더 읽어볼만한 페이지

  • 인공신경망 - 인공 뉴런
    인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
  • 인공신경망 - 퍼셉트론
    퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.
익스트림 러닝 머신
개요
ELM 그래프 모델
ELM 그래프 모델
종류인공 신경망
영문명Extreme Learning Machine
약칭ELM
특징
구조단일 은닉층 피드포워드 신경망 (SLFN)
활성화 함수미분 가능하지 않아도 됨
학습 방법은닉층 노드의 파라미터를 무작위로 설정
출력층 노드의 파라미터는 최소 자승법으로 결정
장점학습 속도가 빠름
일반화 성능이 좋음
단점은닉층 노드의 수를 결정하기 어려움
무작위 파라미터 설정에 따라 성능이 달라질 수 있음
역사
최초 제안광빈 황 (Guang-Bin Huang)
발표 연도2004년 ~ 2006년
활용 분야
응용 분야회귀 분석
분류
군집 분석
특징 추출
차원 축소
참고 문헌
주요 논문http://www.ntu.edu.sg/home/egbhuang/pdf/ELM-Unified-Learning.pdf
http://www.ntu.edu.sg/home/egbhuang/pdf/ELM-Randomness-Kernel.pdf
관련 항목
관련 기술퍼셉트론
RBF 네트워크
SVM

2. 역사

익스트림 러닝 머신(ELM) 연구는 2001년부터 시작되어 여러 단계를 거쳐 발전해왔다. 초기(2001~2010년)에는 다양한 단일 은닉층 피드포워드 신경망(SLFN)을 통합하는 학습 프레임워크 개발과 이론적 기반 마련에 집중했다.[7][8][9][10][11][12] 이후 2010년부터 2015년까지는 커널 학습, SVM, PCA, NMF 등 다른 학습 방법론과의 관계를 규명하고 ELM의 적용 범위를 넓히는 연구가 진행되었다.[13][14] 2015년부터 2017년 사이에는 ELM을 여러 층으로 쌓는 계층적 구조[15][16]와 생물학적 타당성[17][18][19]에 대한 관심이 높아졌다. 2017년 이후로는 LU 분해, 헤센베르크 분해, QR 분해 등 수치적 안정성을 높이는 기법[20][21][22]과 함께 ELM의 학문적 영향력이 인정받아, 관련 초기 논문들이 구글 학술 블로그에서 중요한 고전 논문으로 선정되기도 했다.[23][24][25][26]

2. 1. 초기 연구 (2001년 ~ 2010년)

2001년부터 2010년까지 익스트림 러닝 머신(ELM) 연구는 주로 다양한 유형의 신경망을 아우르는 통합적인 학습 방법을 만드는 데 집중되었다. 여기에는 시그모이드 네트워크, RBF 네트워크, 임계값 네트워크,[7] 삼각 함수 네트워크, 퍼지 추론 시스템, 푸리에 급수,[8][9] 라플라스 변환, 웨이블릿 네트워크[10] 등이 포함되며, 이들을 "일반화된" 단일 은닉층 피드포워드 신경망(SLFN)으로 묶어 연구했다. 이 시기의 중요한 성과 중 하나는 ELM이 다양한 종류의 함수를 근사하고 데이터를 분류하는 능력이 있음을 이론적으로 증명한 것이다.[8][11][12]

2. 2. 확장 연구 (2010년 ~ 2015년)

2010년부터 2015년까지, ELM 연구는 커널 학습, SVM, 그리고 주성분 분석(PCA) 및 비음수 행렬 분해(NMF)와 같은 대표적인 특징 학습 방법론들을 아우르는 통합 학습 프레임워크로 확장되었다. 이 과정에서 SVM이 실제로 ELM에 비해 최적화되지 않은 솔루션을 제공한다는 것이 밝혀졌으며, ELM은 SVM에서 사용되는 블랙박스 커널 대신 ELM 임의 특징 매핑으로 구현되는 화이트박스 커널 매핑을 제공할 수 있다. 주성분 분석(PCA) 및 비음수 행렬 분해(NMF)는 ELM에서 선형 은닉 노드가 사용되는 특수한 경우로 간주될 수 있다.[13][14]

2. 3. 계층적 구현 및 생물학적 연구 (2015년 ~ 2017년)

2015년부터 2017년까지는 ELM을 여러 층으로 쌓아 구현하는 방식인 계층적 구현[15][16]에 대한 관심이 높아졌다. 또한 2011년부터 시작되어 이 시기에도 계속된 연구를 통해, 특정 ELM 이론을 뒷받침하는 중요한 생물학적 근거들이 제시되었다.[17][18][19]

2. 4. 수렴 문제 극복 및 추가 연구 (2017년 이후)

2017년부터는 LU 분해, 헤센베르크 분해, QR 분해와 같은 행렬 분해 기법과 정규화 방법을 활용하여 익스트림 러닝 머신(ELM) 훈련 과정에서 발생할 수 있는 낮은 수렴 문제를 해결하려는 연구에 관심이 모아졌다.[20][21][22]

같은 해인 2017년, 구글 학술 블로그는 오랜 시간 동안 학계에 영향을 준 논문들을 소개하는 "고전 논문: 시간의 시험을 견딘 기사" 목록을 발표했다.[23] 이 목록에서 ELM에 관한 논문 두 편이 "2006년 고전 인공지능 논문 10선" 중 두 번째와 일곱 번째 연구로 선정되는 성과를 거두었다.[24][25][26]

3. 알고리즘

ELM은 단일 은닉층을 가정하며, i번째 은닉 노드의 출력 함수는 h_i(\mathbf{x})=G(\mathbf{a}_i,b_i,\mathbf{x})이다. 여기서 \mathbf{a}_ib_ii번째 은닉 노드의 파라미터이다. L개의 은닉 노드를 가진 단일 은닉층 피드포워드 네트워크(SLFN)에 대한 ELM의 출력 함수는 다음과 같다.

f_L({\bf x})=\sum_{i=1}^L{\boldsymbol \beta}_ih_i({\bf x})이며, 여기서 {\boldsymbol \beta}_ii번째 은닉 노드의 출력 가중치이다.

\mathbf{h}(\mathbf{x})=[h_i(\mathbf{x}),...,h_L(\mathbf{x})]는 ELM의 은닉층 출력 매핑이다. N개의 훈련 샘플이 주어지면, ELM의 은닉층 출력 행렬 \mathbf{H}는 다음과 같이 주어진다:

{\bf H}=\left[\begin{matrix}

{\bf h}({\bf x}_1)\\

\vdots\\

{\bf h}({\bf x}_N)

\end{matrix}\right]=\left[\begin{matrix}

G({\bf a}_1, b_1, {\bf x}_1) &\cdots & G({\bf a}_L, b_L, {\bf x}_1)\\

\vdots &\vdots&\vdots\\

G({\bf a}_1, b_1, {\bf x}_N) &\cdots & G({\bf a}_L, b_L, {\bf x}_N)

\end{matrix}\right]



그리고 \mathbf{T}는 훈련 데이터 목표 행렬이다:

{\bf T}=\left[\begin{matrix}

{\bf t}_1\\

\vdots\\

{\bf t}_N

\end{matrix}\right]



일반적으로 ELM은 일종의 정규화 신경망이지만, 조정되지 않은 은닉층 매핑(임의 은닉 노드, 커널 또는 기타 구현으로 구성됨)을 사용하며, 목표 함수는 다음과 같다.



\text{최소화: } \|{\boldsymbol \beta}\|_p^{\sigma_1}+C\|{\bf H}{\boldsymbol \beta}-{\bf T}\|_q^{\sigma_2}



여기서 \sigma_1>0, \sigma_2>0, p,q=0, \frac{1}{2}, 1, 2, \cdots, +\infty이다.

\sigma_1, \sigma_2, pq의 다양한 조합을 사용하여 회귀, 분류, 희소 코딩, 압축, 특징 학습클러스터링을 위한 다양한 학습 알고리즘을 얻을 수 있다.

특별한 경우로, 가장 간단한 ELM 훈련 알고리즘은 (단일 은닉층 시그모이드 신경망의 경우) 다음과 같은 형태의 모델을 학습한다.

:\mathbf{\hat{Y}} = \mathbf{W}_2 \sigma(\mathbf{W}_1 x)

여기서 \mathbf{W}_1은 입력에서 은닉층으로 가는 가중치 행렬이고, \sigma활성화 함수이며, \mathbf{W}_2는 은닉층에서 출력층으로 가는 가중치 행렬이다. 이 알고리즘은 다음과 같이 진행된다.

# \mathbf{W}_1을 임의의 값(예: 가우시안 임의 잡음)으로 채운다.

# 설계 행렬 \mathbf{X}가 주어지면, 유사역행렬 \cdot^+를 사용하여 계산된 응답 변수 \mathbf{Y} 행렬에 대한 최소 자승 적합으로 \mathbf{W}_2를 추정한다.

#:\mathbf{W}_2 = \sigma(\mathbf{W}_1 \mathbf{X})^+ \mathbf{Y}

4. 아키텍처

대부분의 경우, 익스트림 러닝 머신(ELM)은 단일 은닉층 피드포워드 네트워크(SLFN) 형태로 사용된다. 이는 시그모이드 네트워크, RBF 네트워크, 임계값 네트워크, 퍼지 추론 네트워크, 복합 신경망, 웨이블릿 네트워크, 푸리에 변환, 라플라스 변환 등을 포함한다. 회귀, 분류, 희소 코딩, 압축, 특징 학습, 클러스터링 등 다양한 학습 알고리즘이 구현되면서, 여러 ELM을 결합하여 다중 은닉층 네트워크, 딥 러닝 또는 계층적 네트워크를 구성하는 데에도 활용되고 있다.[15][16][35]

ELM에서 은닉 노드는 단순히 고전적인 인공 뉴런으로만 간주될 필요는 없으며, 계산 요소로서의 역할을 한다. 이 은닉 노드는 고전적인 인공 뉴런일 수도 있고, 기저 함수이거나 여러 은닉 노드가 모여 형성된 서브 네트워크일 수도 있다.[11]

5. 이론

ELM에 대한 보편적인 근사 및 분류 능력[5][34]이 문헌에서 증명되었다. 특히, 광빈 황과 그의 팀은 ELM의 보편적인 근사 능력에 대한 엄격한 증명에 거의 7년(2001-2008)을 쏟았다.[8][11][12]

5. 1. 보편적 근사 능력

이론적으로, ELM의 은닉층 노드에서는 임의의 비상수 구간별 연속 함수를 활성화 함수로 사용할 수 있다. 중요한 점은 이 활성화 함수가 반드시 미분 가능할 필요는 없다는 것이다.

만약 단일 은닉층 피드포워드 신경망(SLFN)이 은닉 노드의 매개변수를 조정하여 임의의 목표 함수 f(\mathbf{x})를 근사할 수 있다면, ELM에서는 이러한 은닉 노드 매개변수를 임의의 연속 확률 분포에 따라 무작위로 생성할 수 있다. 그리고 적절한 출력 가중치 \boldsymbol\beta를 찾으면, 은닉 노드의 개수 L이 무한히 커짐에 따라 신경망의 출력값 \sum_{i=1}^L{\boldsymbol \beta}_ih_i({\bf x})과 실제 목표 함수 f({\bf x}) 사이의 오차가 0에 가까워진다. 이는 수학적으로 다음과 같이 표현되며, 확률 1로 성립한다:

\lim_{L\rightarrow \infty}\left\|\sum_{i=1}^L{\boldsymbol \beta}_ih_i({\bf x})-f({\bf x})\right\|=0

이는 ELM이 보편적 근사 정리의 조건을 만족하며, 충분한 수의 은닉 노드가 있다면 거의 모든 함수를 근사할 수 있는 능력을 갖추고 있음을 의미한다.

5. 2. 분류 능력

임의의 상수가 아닌 조각별 연속 함수를 SLFN(Single Layer Feedforward Network)의 활성화 함수로 사용하는 경우, 은닉 노드의 매개변수를 조정하여 SLFN이 목표 함수 f(\mathbf{x})를 근사할 수 있다면, 임의의 숨겨진 레이어 매핑 \mathbf{h}(\mathbf{x})을 가진 SLFN은 임의의 모양을 가진 임의의 분리된 영역을 분리할 수 있다.

6. 뉴런

다양한 비선형 구간별 연속 함수 G(\mathbf{a}, b, \mathbf{x})가 ELM의 은닉 뉴런에서 사용될 수 있으며, 예를 들어 다음과 같다.


  • 시그모이드 함수: G(\mathbf{a}, b, \mathbf{x})=\frac{1}{1+\exp(-(\mathbf{a}\cdot\mathbf{x}+b))}
  • 푸리에 함수: G(\mathbf{a}, b, \mathbf{x})=\sin(\mathbf{a}\cdot\mathbf{x}+b)
  • 하드 리미트 함수: G(\mathbf{a}, b, \mathbf{x})= \begin{cases} 1, &\text{if }{\bf a}\cdot{\bf x}-b\geq 0\\ 0, &\text{otherwise} \end{cases}
  • 가우시안 함수: G(\mathbf{a}, b, \mathbf{x})=\exp(-b\|\mathbf{x}-\mathbf{a}\|^2)
  • 멀티쿼드릭스 함수: G(\mathbf{a}, b, \mathbf{x})=(\|\mathbf{x}-\mathbf{a}\|^2+b^2)^{1/2}
  • 웨이블릿: G(\mathbf{a}, b, \mathbf{x})=\|a\|^{-1/2}\Psi\left(\frac{\mathbf{x}-\mathbf{a}}{b}\right) 여기서 \Psi는 단일 모(母) 웨이블릿 함수이다.
  • 원형 함수:
  • \tan(z)= \frac{e^{iz}-e^{-iz}}{i(e^{iz}+e^{-iz})}
  • \sin(z)= \frac{e^{iz}-e^{-iz}}{2i}
  • 역 원형 함수:
  • \arctan(z)= \int_0^z\frac{dt}{1+t^2}
  • \arccos(z)= \int_0^z\frac{dt}{(1-t^2)^{1/2}}
  • 쌍곡선 함수:
  • \tanh(z)= \frac{e^z-e^{-z}}{e^z+e^{-z}}
  • \sinh(z)= \frac{e^z-e^{-z}}{2}
  • 역 쌍곡선 함수:
  • \text{arctanh}(z)=\int_0^z\frac{dt}{1-t^2}
  • \text{arcsinh}(z)=\int_0^z\frac{dt}{(1+t^2)^{1/2}}

7. 신뢰성

일반적으로 신경망, 특히 익스트림 러닝 머신(ELM)은 내부 작동 원리를 파악하기 어려운 블랙 박스 특징을 지닌다. 이는 엔지니어들이 안전이 중요한 자동화 작업에 ELM을 적용하는 것을 주저하게 만드는 주요 원인 중 하나이다.

이러한 신뢰성 문제를 해결하기 위해 여러 연구가 진행되었다. 한 가지 접근 방식은 임의의 입력값에 대한 의존도를 줄이는 것이다.[27][28] 또 다른 접근 방식은 특정 작업에 대한 사전 지식으로부터 얻어진 연속적인 제약 조건을 ELM의 학습 과정에 통합하는 데 중점을 둔다.[29][30] 많은 응용 분야에서 기계 학습 솔루션은 안전한 작동을 보장해야 하므로, 이러한 접근은 타당성을 가진다. 연구에 따르면, ELM의 특별한 형태는 기능적 분리와 선형 판독 가중치를 통해 입력 공간의 미리 정의된 영역에서 연속 제약 조건을 효율적으로 통합하는 데 특히 적합한 것으로 나타났다.

8. 논쟁

익스트림 러닝 머신(ELM) 연구에 대해 학계에서는 크게 두 가지 비판이 제기되었다. 첫째는 ELM이 기존 아이디어를 단순히 재발명하고 무시한다는 점이며, 둘째는 'ELM'이라는 이름 자체의 부적절함과 이를 대중화하려는 시도에 대한 비판이다. 이러한 논쟁은 2008년과 2015년에 있었던 일부 학술적 논의에서 드러났다.[31]

특히, ''IEEE Transactions on Neural Networks'' 편집자에게 보내진 한 편지에서는 ELM의 핵심 아이디어 중 하나인 '무작위로 훈련되지 않은 가중치를 가진 은닉층 사용'이 이미 1980년대 후반 RBF 네트워크 관련 초기 연구에서 제시된 개념이라고 지적했다.[32] 이에 대해 ELM 연구를 주도한 광빈 황(Guang-Bin Huang)은 두 방법 간에 미묘한 차이점이 존재한다고 반박했다.[33]

2015년 발표된 논문에서[34] 황은 기존에 존재하던 방법에 ELM이라는 이름을 붙인 것에 대한 비판에 대해 강하게 반발했다. 그는 이러한 비판들이 "다양한 이유와 의도로 인해 학문적 또는 전문적인 방식으로 ELM에 대한 매우 부정적이고 도움이 되지 않는 의견"을 제시하며, "화합적인 연구 환경을 파괴하려는 무책임한 익명의 공격"이라고 주장했다. 황은 자신의 연구가 계층적 구조를 포함한 다양한 유형의 신경망에 대한 "통합적인 학습 플랫폼을 제공한다"고 강조했다.[34][35] 같은 해, 황은 자신이 "악의적이고 공격적인" 것으로 간주하는 비판들에 대해 공식적인 반박 입장을 발표하기도 했다.[36]

9. 오픈 소스

참조

[1] 논문 An Insight into Extreme Learning Machines: Random Neurons, Random Features and Kernels http://www.ntu.edu.s[...] 2014
[2] 논문 The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain
[3] 서적 Principles of Neurodynamics Spartan, New York
[4] 논문 Extreme learning machine: theory and applications
[5] 논문 Extreme Learning Machine for Regression and Multiclass Classification http://www.ntu.edu.s[...] 2017-08-19
[6] 논문 An Insight into Extreme Learning Machines: Random Neurons, Random Features and Kernels http://www.ntu.edu.s[...] 2014
[7] 논문 Can Threshold Networks Be Trained Directly? http://www.ntu.edu.s[...] 2017-08-22
[8] 논문 Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes http://www.ntu.edu.s[...] 2017-08-22
[9] 논문 Weighted Sums of Random Kitchen Sinks: Replacing Minimization with Randomization in Learning https://people.eecs.[...] 2008
[10] 논문 Composite Function Wavelet Neural Networks with Extreme Learning Machine
[11] 논문 Convex Incremental Extreme Learning Machine http://www.ntu.edu.s[...] 2017-08-22
[12] 논문 Enhanced Random Search Based Incremental Extreme Learning Machine http://www.ntu.edu.s[...] 2017-08-22
[13] 논문 Clustering in Extreme Learning Machine Feature Space http://www.intsci.ac[...] 2014
[14] 논문 Dimension Reduction With Extreme Learning Machine http://www.ntu.edu.s[...] 2016
[15] 논문 Local Receptive Fields Based Extreme Learning Machine http://www.ntu.edu.s[...] 2017-08-22
[16] 논문 Extreme Learning Machine for Multilayer Perceptron http://www.ntu.edu.s[...] 2017-08-22
[17] 논문 The Sparseness of Mixed Selectivity Neurons Controls the Generalization-Discrimination Trade-off 2013
[18] 논문 The Importance of Mixed Selectivity in Complex Cognitive Tasks 2013
[19] 논문 Why Neurons Mix: High Dimensionality for Higher Cognition http://www.ntu.edu.s[...] 2015
[20] 논문 LU triangularization extreme learning machine in EEG cognitive task classification 2017
[21] arXiv Regularized HessELM and Inclined Entropy Measurement forCongestive Heart Failure Prediction 2019-07-12
[22] 논문 Diagnosis of Chronic Obstructive Pulmonary Disease using Deep Extreme Learning Machines with LU Autoencoder Kernel https://www.research[...] 2018
[23] 웹사이트 Classic Papers: Articles That Have Stood The Test of Time https://www.nottingh[...] University of Nottingham 2017-06-15
[24] 웹사이트 "List of 10 classic AI papers from 2006" https://scholar.goog[...] 2017
[25] 논문 Extreme learning machine: theory and applications https://www.scienced[...] 2006-12
[26] 논문 A fast and accurate online sequential learning algorithm for feedforward networks https://ieeexplore.i[...] 2006-11
[27] 논문 Batch intrinsic plasticity for extreme learning machines https://pub.uni-biel[...] 2011
[28] 논문 Optimizing extreme learning machines via ridge regression and batch intrinsic plasticity https://pub.uni-biel[...] 2013
[29] 논문 Reliable integration of continuous constraints into extreme learning machines https://pub.uni-biel[...] 2013
[30] 서적 Reliability https://pub.uni-biel[...] University Library Bielefeld
[31] 웹사이트 The Official Homepage on Origins of Extreme Learning Machines (ELM) http://elmorigin.wix[...] 2018-12-15
[32] 논문 Comments on "The Extreme Learning Machine"
[33] 논문 Reply to "comments on 'the extreme learning machine' " 2008
[34] 논문 What are Extreme Learning Machines? Filling the Gap Between Frank Rosenblatt's Dream and John von Neumann's Puzzle http://www.ntu.edu.s[...] 2015-07-30
[35] 간행물 2015 International Joint Conference on Neural Networks (IJCNN) 2015-07-01
[36] 웹사이트 WHO behind the malign and attack on ELM, GOAL of the attack and ESSENCE of ELM http://www.ntu.edu.s[...] 2015
[37] 서적 2014 International Joint Conference on Neural Networks (IJCNN) 2014-07-01
[38] 간행물 High-Performance Extreme Learning Machines: A Complete Toolbox for Big Data Applications 2015



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com