활성화 함수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
활성화 함수는 인공 신경망에서 입력 신호의 총합을 처리하여 출력 신호를 생성하는 함수로, 초기에는 계단 함수가 사용되었으나, 역전파 알고리즘의 등장과 함께 시그모이드 함수가 널리 사용되었다. 이후 기울기 소실 문제를 해결하기 위해 ReLU 함수가 제안되었으며, Leaky ReLU, Swish 등 다양한 활성화 함수가 개발되었다. 활성화 함수는 릿지 함수, 방사형 함수, 폴딩 함수 등으로 분류되며, 비선형성, 범위, 연속 미분 가능성, 포화 등의 수학적 속성을 갖는다. 출력층의 활성화 함수와 오차 함수는 문제의 종류에 따라 다르게 설계되며, 회귀, 이진 분류, 다중 클래스 분류 문제에 각각 적합한 함수가 사용된다.
더 읽어볼만한 페이지
활성화 함수 | |
---|---|
개요 | |
정의 | 인공 신경망의 노드에서 출력값을 결정하는 함수 |
다른 이름 | 전달 함수 (transfer function) |
유형 및 특징 | |
선형 함수 | 계산이 단순하지만 복잡한 패턴 학습에 제한적임 |
시그모이드 함수 | 출력 범위가 (0, 1) 또는 (-1, 1) 사이로 제한되어 기울기 소실 문제 발생 가능 |
ReLU 함수 | 경사 소실 문제를 완화하고 학습 속도를 향상시키지만, dying ReLU 문제 발생 가능 |
tanh 함수 | 시그모이드 함수와 유사하지만 출력 범위가 (-1, 1)로 중심화되어 학습 효율이 높음 |
소프트맥스 함수 | 다중 클래스 분류 문제에서 각 클래스에 대한 확률을 출력하는 데 사용됨 |
GELU 함수 | 정규 분포의 누적 분포 함수를 사용하여 입력에 따라 가중치를 부여하는 함수 |
추가 정보 | |
역할 | 신경망의 비선형성을 추가하여 복잡한 패턴 학습을 가능하게 함 |
선택 | 신경망의 성능에 큰 영향을 미치므로 문제 유형과 신경망 구조에 따라 적절한 함수를 선택해야 함 |
2. 역사적 배경
활성화 함수는 인공신경망의 역사와 함께 발전해왔다. 인공 신경망 모델에서 인공 뉴런은 하나 이상의 입력을 받아들여 이들의 가중 합에 활성화 함수를 적용하여 출력을 생성한다. 수식으로 표현하면 다음과 같다.
:
여기서 가 활성화 함수이다.
고전적으로는 계단 함수가 제안되었으나, 1986년 데이비드 러멜하트, 제프리 힌튼 등이 역전파 알고리즘을 발표한 이후 시그모이드 함수가 널리 사용되기 시작했다.[26] 현재는 ReLU (램프 함수)가 더 좋은 성능을 보이는 것으로 알려져 있다.[26]
2. 1. 초기 모델
인공 신경망의 초기 모델에서는 활성화 함수로 다음 함수들이 제안되었다.- 계단 함수: 1943년 워렌 맥컬록과 월터 피츠가 제안한 최초의 인공신경망 모델인 매컬록-피츠 모델에서 사용되었다.[26]
- 선형 함수: 1958년 프랭크 로젠블랫이 제안한 퍼셉트론 모델에서 사용되었다. 입력값에 바이어스 ''b''를 더한 값을 출력한다.
:
:
:일반적으로 이러한 선형 함수는 회귀 분석에서 사용되며, 이진 분류에서는 출력값의 부호를 통해 0 또는 1로 구분한다.
2. 2. 역전파 알고리즘과 시그모이드 함수
데이비드 러멜하트, 제프리 힌튼 등이 역전파 알고리즘을 발표한 1986년 이후, 시그모이드 함수가 활성화 함수로 널리 사용되기 시작했다.[26] 시그모이드 함수는 비교적 단순한 비선형 함수이며 미분 계산이 용이하여 역전파를 동반하는 신경망에서 사용된다. 시뮬레이션 계산 부하를 줄이고 싶었던 초기 연구자들은 네트워크를 수학적으로 다루기 용이한 시그모이드 함수를 앞다투어 채택했다.:
2. 3. ReLU와 현대적 활성화 함수
2011년, 자비에 글로로(Xavier Glorot) 등은 은닉층의 활성화 함수로 max(0, x)를 사용하는 것이 tanh나 소프트플러스보다 개선된다는 것을 발표했다.[29] 이는 일반적으로 램프 함수라고 불리지만, 신경망 세계에서는 '''ReLU''' (Rectified Linear Unit, Rectifier|정류 선형 유닛영어)라고 불린다. 얀 르쿤이나 제프리 힌튼 등이 잡지 네이처에 쓴 논문에서는 2015년 5월 현재 이것이 최선이라고 하고 있다.[30] 발상으로는 구간 선형 함수를 사용한 1차 스플라인 보간법이며, 선형 보간을 참조하면 관련 내용을 확인할 수 있다. ReLU 함수의 수식은 다음과 같다.:
2013년에는 max(0.01x, x) 가 LReL (leaky rectified linear)로 명명되었으나, 명명자는 이 활성화 함수를 사용할 의미는 없었다고 보고하고 있다.[31]
2018년에는 x*sigmoid(x) 가 Swish (혹은 SiLU, sigmoid weighted linear)로 명명되었다. 이 함수는 ReLU보다 높은 분류 정확도를 얻을 수 있다고 제시되었다.[32]
3. 활성화 함수의 종류
활성화 함수는 크게 릿지 함수, 방사형 함수, 폴드 함수의 세 가지 범주로 나눌 수 있다.[8]
활성화 함수 가 이면 '''포화''' 상태라고 하고,
4. 활성화 함수의 수학적 속성
활성화 함수는 경험적 성능 외에도 다음과 같은 다양한 수학적 속성을 갖는다.
- 비선형성: 활성화 함수가 비선형인 경우, 2층 신경망은 만능 함수 근사기임을 증명할 수 있다.[6] 이는 만능 근사 정리라고 알려져 있다. 항등 활성화 함수는 이 속성을 만족하지 않는다. 여러 층에서 항등 활성화 함수를 사용하는 경우, 전체 네트워크는 단일 층 모델과 동일하다.
- 범위: 활성화 함수의 범위가 유한할 경우, 기울기 기반 훈련 방법은 패턴 제시가 제한된 가중치에만 유의미한 영향을 미치기 때문에 더 안정적인 경향이 있다. 범위가 무한대일 경우, 패턴 제시가 대부분의 가중치에 유의미한 영향을 미치기 때문에 일반적으로 훈련 효율이 더 높다. 후자의 경우, 일반적으로 더 작은 학습률이 필요하다.
- 연속 미분 가능성: 이 속성은 기울기 기반 최적화 방법을 가능하게 하므로 바람직하다. (ReLU는 연속 미분 가능하지 않으며 기울기 기반 최적화에 일부 문제가 있지만, 여전히 가능하다.) 이진 스텝 활성화 함수는 0에서 미분 가능하지 않으며, 다른 모든 값에 대해 0으로 미분되므로 기울기 기반 방법으로는 진행할 수 없다.[7]
- 포화: 활성화 함수
f 가\lim_{|v|\to \infty} |\nabla f(v)| = 0 이면 '''포화''' 상태라고 한다.\lim_
5. 출력층의 활성화 함수와 오차 함수
출력층은 은닉층과 구분하여 설계하며, 활성화 함수와 오차 함수는 세트로 설계해야 한다. 문제 종류에 따라 그것들은 다르다. 여기서 제시된 기법은 오차 함수의 편미분이 모두 출력과 목표값의 차이가 되어 다루기 쉽다.[1]
변수 사용법은 다음과 같다.
N : 훈련 데이터의 개수d_n : n번째 훈련 데이터의 목표값y_n : n번째 훈련 데이터의 출력
5. 1. 회귀 (Regression)
회귀 분석에서 사용되는 활성화 함수와 오차 함수는 다음과 같다.- 활성화 함수: 항등 함수
\varphi(u) = u - 오차 함수: 평균 제곱 오차
E(w) = \frac{1}{2} \sum_{n=1}^N \| y_n - d_n \|^2 - 오차 함수의 편미분:
\frac{ \partial E_n(w) }{ \partial u } = y_n - d_n
5. 2. 이진 분류 (Binary Classification)
활성화 함수는 시그모이드 함수 (- 활성화 함수:
\varphi(u) = \varsigma_1 (u) = \frac{1}{1+e^{-u}} - 오차 함수:
E(w) = - \sum_{n=1}^N (d_n \log y_n + (1 - d_n) \log (1 - y_n)) - 오차 함수의 편미분:
\frac{ \partial E_n(w) }{ \partial u } = y_n - d_n
5. 3. 다중 클래스 분류 (Multi-class Classification)
K개의 클래스로 분류한다. 출력은 K개이며, 총합은 1이고, 해당 클래스에 속할 확률로 해석한다.- 활성화 함수:
\varphi(u_k) = \frac{e^{u_k}}{\sum_{i=1}^K e^{u_i}} - 오차 함수:
E(w) = - \sum_{n=1}^N \sum_{k=1}^K d_{n,k} \log y_{n,k} - 오차 함수의 편미분:
\frac{ \partial E_n(w) }{ \partial u_k } = y_{n,k} - d_{n,k}
참조
[1]
웹사이트
Neural Networks, p. 7
http://didattica.cs.[...]
2018-10-06
[2]
arXiv
Gaussian Error Linear Units (GELUs)
[3]
간행물
Deep Neural Networks for Acoustic Modeling in Speech Recognition
[4]
간행물
ImageNet classification with deep convolutional neural networks
https://dl.acm.org/d[...]
2017-05-24
[5]
간행물
Dorsal Hand Vein Recognition by Convolutional Neural Networks: Feature Learning and Transfer Learning Approaches
http://www.inass.org[...]
2019-06-30
[6]
간행물
Approximation by superpositions of a sigmoidal function
https://hal.archives[...]
1989-12
[7]
서적
Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms
https://books.google[...]
Springer Science & Business Media
2005-03-03
[8]
간행물
ImageNet classification with deep convolutional neural networks
2017-05-24
[9]
간행물
A quantitative description of membrane current and its application to conduction and excitation in nerve
1952-08-28
[10]
간행물
Implicit Neural Representations with Periodic Activation Functions
https://proceedings.[...]
Curran Associates, Inc.
2020
[11]
문서
Square Unit Augmented Radially Extended Multilayer Perceptrons
https://link.springe[...]
Springer
2024-10-05
[12]
간행물
On the Power of Over-parametrization in Neural Networks with Quadratic Activation
https://proceedings.[...]
PMLR
2018-07-03
[13]
문서
27th International Conference on International Conference on Machine Learning
Omnipress
2010
[14]
웹사이트
Deep sparse rectifier neural networks
http://proceedings.m[...]
2011
[15]
arXiv
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)
2015-11-23
[16]
간행물
Self-Normalizing Neural Networks
2017-06-08
[17]
간행물
Rectifier nonlinearities improve neural network acoustic models
2013-06
[18]
arXiv
Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
2015-02-06
[19]
문서
Elsevier Pattern Recognition
2023
[20]
문서
"[[2008 IEEE International Conference on Acoustics, Speech and Signal Processing]]"
2008
[21]
간행물
Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
[22]
arXiv
Searching for Activation Functions
[23]
문서
The Quest for the Golden Activation Function
2018-08-02
[24]
간행물
Maxout Networks
[25]
간행물
Quantum activation functions for quantum neural networks
[26]
간행물
Deep learning
2015-05-28
[27]
간행물
Efficient BackProp
http://yann.lecun.co[...]
[28]
간행물
Understanding the difficulty of training deep feedforward neural networks
http://jmlr.org/proc[...]
[29]
간행물
Deep Sparse Rectifier Neural Networks
http://jmlr.csail.mi[...]
[30]
간행물
Deep learning
2015-05-28
[31]
간행물
Rectifier Nonlinearities Improve Neural Network Acoustic Models
http://web.stanford.[...]
[32]
간행물
Searching for Activation Functions
https://arxiv.org/ab[...]
2017-10-27
[33]
간행물
Kernel Methods for Deep Learning
http://papers.nips.c[...]
[34]
간행물
Neural Networks Fail to Learn Periodic Functions and How to Fix It
https://arxiv.org/ab[...]
2020-10-24
[35]
간행물
Implicit Neural Representations with Periodic Activation Functions
https://arxiv.org/ab[...]
2020-06-17
[36]
간행물
Radial basis functions, multi-variable functional interpolation and adaptive networks
http://www.dtic.mil/[...]
[37]
저널
Wavelet networks
http://people.rennes[...]
[38]
저널
Maxout Networks
https://arxiv.org/ab[...]
[39]
웹인용
Neural Networks, p. 7
http://didattica.cs.[...]
2018-10-06
[40]
ArXiv
Gaussian Error Linear Units (GELUs)
[41]
저널
Deep Neural Networks for Acoustic Modeling in Speech Recognition
[42]
저널
ImageNet classification with deep convolutional neural networks
https://dl.acm.org/d[...]
2017-05-24
[43]
저널
Dorsal Hand Vein Recognition by Convolutional Neural Networks: Feature Learning and Transfer Learning Approaches
http://www.inass.org[...]
2019-06-30
관련 사건 타임라인
( 최근 20개의 뉴스만 표기 됩니다. )
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com