보편 근사 정리
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
보편 근사 정리는 인공 신경망이 특정 조건을 만족하는 경우, 임의의 연속 함수를 원하는 정확도로 근사할 수 있다는 이론이다. 이 정리는 신경망의 구조, 특히 은닉층의 수와 너비에 따라 다양한 형태로 나타나며, 시그모이드 함수와 같은 활성화 함수의 선택도 중요한 요소로 작용한다. 1980년대와 1990년대에 걸쳐 조지 사이벤코, 쿠르트 호르니크 등에 의해 임의 너비와 제한된 깊이에 대한 연구가 이루어졌으며, 이후 ReLU 활성화 함수를 사용하는 임의 깊이의 신경망에 대한 연구가 진행되었다. 또한, 제한된 깊이와 너비의 신경망에 대한 연구도 이루어졌으며, 최근에는 정량적 경계, 변형, 콜모고로프 네트워크와의 연관성에 대한 연구가 활발히 진행되고 있다.
더 읽어볼만한 페이지
- 네트워크 아키텍처 - 신경망
신경망은 생물학적 뉴런과 인공 뉴런을 아우르는 개념으로, 생물학적 신경망은 전기화학적 신호 전달을 통해 근육 운동을 제어하고, 인공 신경망은 예측 모델링과 인공 지능 문제 해결에 활용된다. - 네트워크 아키텍처 - 5G 네트워크 슬라이싱
5G 네트워크 슬라이싱은 하나의 물리적 네트워크를 여러 논리적 네트워크로 분할하여 각 슬라이스가 서로 다른 서비스 품질을 보장하는 5G 핵심 기술로, 한국은 세계 최초 5G 상용화를 통해 다양한 분야 활용을 위한 연구개발과 인프라 구축을 지원하고 있으며, 기술적 과제와 경제적 어려움 극복 및 기술 고도화와 표준화가 필요하다. - 해석학 정리 - 옌센 부등식
옌센 부등식은 볼록 함수 f에 대해 f의 기댓값은 f의 인수의 기댓값에 적용된 함수 값보다 크거나 같다는 부등식으로, 산술-기하 평균 부등식을 포함한 여러 부등식 유도에 사용되며 다양한 분야에 응용된다. - 해석학 정리 - 음함수와 양함수
음함수와 양함수는 함수의 표현 방식에 따른 분류로, 독립변수와 종속변수의 관계가 명시적으로 나타나는 경우를 양함수, 관계식이 한 식 안에 포함된 경우를 음함수라 하며, 음함수는 양함수로 표현하기 어렵거나 불가능한 경우가 있고, 음함수 미분법, 음함수 정리 등을 통해 여러 분야에서 활용된다. - 네트워크 - 신경망
신경망은 생물학적 뉴런과 인공 뉴런을 아우르는 개념으로, 생물학적 신경망은 전기화학적 신호 전달을 통해 근육 운동을 제어하고, 인공 신경망은 예측 모델링과 인공 지능 문제 해결에 활용된다. - 네트워크 - 에티살랏
에티살랏은 1976년 설립된 아랍에미리트의 통신 회사로, 유무선 통신망 독점 운영 및 국제 통신 사업 확장, 중동 지역 경제 발전 기여, 정보 접근성 향상 등의 역할을 수행하고 있다.
보편 근사 정리 | |
---|---|
개요 | |
분야 | 수학, 컴퓨터 과학 |
하위 분야 | 함수 근사, 신경망 이론 |
설명 | |
내용 | 1개의 은닉층을 가진 피드 포워드 신경망이 연속 함수를 근사할 수 있음을 나타냄 |
관련 정리 | 스톤-바이어슈트라스 정리 |
2. 역사
보편 근사 정리의 초기 연구는 주로 '임의의 너비'를 가진 신경망, 즉 은닉층의 뉴런 수는 제한하지 않고 깊이를 고정한 경우에 집중되었다. 조지 사이벤코(George Cybenko)는 1989년에 시그모이드 함수 활성화 함수를 사용하는 신경망에 대해 이 정리를 증명했다.[3] 같은 해, 쿠르트 호르니크 등은 다층 피드-포워드 신경망이 보편 근사기가 될 수 있음을 보였다.[1] 이후 연구를 통해, 신경망의 보편 근사 능력은 활성화 함수의 종류보다는 다층 피드-포워드 구조 자체에 기인한다는 것이 밝혀졌다.[4]
'임의의 깊이'에 대한 연구는 은닉층의 깊이를 제한하지 않고 각 층의 뉴런 수를 고정했을 때의 근사 능력을 다룬다. 2003년 구스타프 그리펜베르크(Gustaf Gripenberg)의 연구를 시작으로,[7] ReLU 활성화 함수를 사용하는 신경망에 대한 연구가 활발히 진행되었다.[8][9][10] 2020년에는 이러한 결과가 tanh영어, GeLU영어, Swish영어와 같은 다른 활성화 함수에도 적용될 수 있음이 밝혀졌다.[11]
제한된 깊이와 제한된 너비를 모두 고려하는 연구도 진행되었다. 1999년 마요로프(Maiorov)와 핀커스(Pinkus)는 은닉층 유닛 수가 제한된 2층 신경망이 보편 근사기임을 보이는 해석적 시그모이드 활성화 함수가 존재함을 증명했다.[13] 굴리예프(Guliyev)와 이스마일로프(Ismailov)는 더 적은 수의 뉴런을 가진 2층 신경망에 대해 보편 근사 속성을 제공하는 부드러운 시그모이드 활성화 함수를 구성했다.[14]
2. 1. 임의의 너비 (Arbitrary width)
조지 사이벤코(George Cybenko)는 1989년에 시그모이드 함수 활성화 함수를 사용하는 단일 은닉층 신경망이 임의의 연속 함수를 근사할 수 있다는 것을 증명했다.[3] 1989년, 쿠르트 호르니크, 맥스웰 스틴콤, 할버트 화이트는 단 하나의 은닉층만 있는 다층 피드-포워드 신경망도 보편적인 근사기임을 보였다.[1] 호르니크는 1991년에도[4] 신경망이 보편적인 근사기가 될 수 있는 잠재력을 가지는 것은 특정 활성화 함수의 선택이 아니라 다층 피드-포워드 구조 자체라는 것을 보여주었다. 1993년 모셰 레슈노, 1999년 앨런 핑커스는[6] 보편적인 근사 속성은 비다항식 활성화 함수를 갖는 것과 동일하다는 것을 보여주었다.1980년대-1990년대에 걸쳐 조지 사이벤코(George Cybenko) 등과 쿠르트 호르니크 등은 임의의 너비와 제한된 깊이에 대한 몇 가지 보편 근사 정리를 확립했다.[37][3][38][4]
특정 비연속 활성화 함수를 사용하여 시그모이드 함수를 근사할 수 있으며, 이를 통해 위의 정리를 해당 함수에 적용할 수 있다. 예를 들어, 계단 함수가 작동한다. 특히, 이는 단일의 무한히 넓은 은닉층을 가진 퍼셉트론 네트워크가 임의의 함수를 근사할 수 있음을 보여준다.
첫 번째 층에 동일한 구조를 사용하고 후속 층으로 항등 함수를 근사하여 더 깊은 네트워크로도 를 근사할 수 있다.
2. 2. 임의의 깊이 (Arbitrary depth)
ReLU영어 활성화 함수를 사용하는 신경망에 대한 연구가 진행되었고, 깊이가 깊어질수록 근사 능력이 향상된다는 것이 밝혀졌다.[7][8][9][10] 이후 tanh영어, GeLU영어, Swish영어 등 특정 조건을 만족하는 일반 활성화 함수를 사용하는 신경망으로 연구 결과가 확장되었다.[11]2024년, 차이(Cai)는 어휘라고 불리는 유한한 매핑 집합을 구성하여, 모든 연속 함수를 어휘의 시퀀스를 합성하여 근사할 수 있도록 했다.[12] 이는 기본적인 요소의 유한한 어휘를 문법을 통해 결합하여 무한한 범위의 의미를 표현할 수 있다는 언어학의 구성성 개념과 유사하다.
2017년, Zhou Lu et al.은 깊이가 깊어지면 너비 *n* + 4의 ReLU 활성화 함수를 가진 네트워크가 거리에서 *n*차원 입력 공간의 모든 르베그 적분 가능 함수를 근사할 수 있음을 증명하였다.[9] 또한, 너비가 *n*보다 작거나 같으면 모든 르베그 적분 가능 함수를 근사할 수 있는 일반적인 표현력이 손실된다는 것을 보였다. 같은 논문에서 너비 *n* + 1의 ReLU 네트워크가 *n*차원 입력 변수의 모든 연속 함수를 근사하는 데 충분하다는 것도 보였다.[42] 이후 연구에서는 이러한 근사가 가능한 최적의 최소 너비를 제시하였다.[43]
이고(즉, ), 가 ReLU 활성화 함수인 경우, 오차를 달성하기 위한 ReLU 네트워크의 정확한 깊이와 너비도 알려져 있다.[44] 대상 함수 가 매끄럽다면 필요한 레이어 수와 너비는 지수적으로 작을 수 있다.[45] 가 매끄럽지 않더라도 가 추가적인 "구성 구조"를 허용한다면 차원의 저주를 깨뜨릴 수 있다.[46][47]
너비가 제한되고 깊이가 임의적인 경우에 대한 특정 필요 조건이 설정되었지만, 알려진 충분 조건과 필요 조건 사이에 아직 격차가 존재한다.[9][10][48]
2. 3. 제한된 깊이 및 제한된 너비 (Bounded depth and bounded width)
1999년 마요로프(Maiorov)와 핀커스(Pinkus)는 은닉층의 유닛 수가 제한된 2개의 은닉층을 가진 인공 신경망이 보편 근사기임을 보여주는 해석적 시그모이드 활성화 함수가 존재함을 증명했다.[13]굴리예프(Guliyev)와 이스마일로프(Ismailov)는 더 적은 수의 뉴런을 가진 2층 신경망에 대해 보편 근사 속성을 제공하는 부드러운 시그모이드 활성화 함수를 구성했다.[14]
3. 정량적 경계
2021년 박(Park) 등은 ReLU 활성화 함수를 사용하는 피드 포워드 신경망을 이용하여 ''Lp'' 함수를 범용적으로 근사하는 데 필요한 최소 너비를 연구했다.[17] 같은 해에 Paulo Tabuada와 Bahman Gharesifard는 제어 이론적 논거를 사용하여 잔차 신경망에 직접 적용할 수 있는 유사한 결과를 도출했다.[18][19] 2023년, Cai는 범용 근사에 대한 최적의 최소 너비 경계를 얻었다.[20]
임의 깊이의 경우, Leonie Papon과 Anastasis Kratsios는 대상 함수와 활성화 함수의 규칙성에 따라 깊이 추정치를 도출했다.[21]
4. 사례
조지 시벤코가 1989년에 발표한 시벤코 정리는 하나의 은닉층을 갖는 인공신경망이 임의의 연속 함수를 원하는 정확도로 근사할 수 있다는 것을 보여주는 사례이다. 그러나 이 정리는 매개변수나 뉴런 수가 부족하면 근사에 실패할 수 있다는 단점도 함께 제시한다.
4. 1. 시벤코 정리 (Cybenko's theorem)
1989년 조지 시벤코(Cybenko)가 발표한 '''시벤코 정리'''(Cybenko's theorem)는 다음과 같다.:를 시그모이드 함수 형식의 연속 함수라 하자(예, ).
: 또는 의 부분집합에서 실수의 연속 함수 와 가 주어지면,
:다음을 만족하는 벡터 , 와
:매개 함수 이 존재한다.
:: for all
:이때,
::
:이고, 이다.
이 정리는 하나의 은닉층을 갖는 인공신경망은 임의의 연속인 다변수 함수를 원하는 정도의 정확도로 근사할 수 있음을 말한다. 단, 와 를 잘못 선택하거나 은닉층의 뉴런 수가 부족할 경우 충분한 정확도로 근사하는데 실패할 수 있다.
5. 변형 (Variants)
보편 근사 정리의 변형(Variants)에 대한 연구는 불연속 활성화 함수,[5] 비압축 영역,[11][25] 인증 가능한 네트워크,[26] 랜덤 신경망,[27] 및 대체 네트워크 아키텍처 및 토폴로지[11][28] 등 다양한 조건에서 진행되었다.
너비가 제한된 네트워크의 보편 근사 속성은 깊이가 제한된 네트워크에 대한 고전적인 보편 근사 결과의 "쌍대"로 연구되었다. 입력 차원 dx와 출력 차원 dy에 대해 ''Lp'' 함수의 보편 근사에 필요한 최소 너비는 ReLU 네트워크의 경우 정확히 max{dx + 1, dy}이다. 이는 ReLU와 임계 활성화 함수를 모두 사용하는 경우에도 마찬가지이다.[17]
그래프 컨볼루션 신경망(GCN 또는 GNN)을 사용한 그래프 (또는 그래프 동형 클래스)의 보편 함수 근사는 Weisfeiler-Leman 그래프 동형성 테스트만큼 차별적으로 만들 수 있다.[29] 2020년에는[30] 특정 주입 속성을 가진 그래프 표현이 유계 그래프에 대한 보편 함수 근사 및 비유계 그래프에 대한 제한된 보편 함수 근사에 충분하다는 보편 근사 정리 결과가 확립되었다.
또한 비유클리드 공간과[31] 컨볼루션 신경망(CNN) 아키텍처,[32][33] 방사형 기저 함수,[34] 또는 특정 속성을 가진 신경망과 같은 알고리즘적으로 생성된 함수 집합[35][36] 사이에도 다양한 결과가 존재한다.
6. 콜모고로프 네트워크
콜모고로프-아르놀트 표현 정리는 이와 유사한 맥락을 지닌다. 실제로, 특정 신경망 계열은 콜모고로프-아르놀드 정리를 직접 적용하여 보편 근사 정리를 도출할 수 있다. 로버트 헤흐트-닐슨은 3층 신경망이 임의의 연속적인 다변수 함수를 근사할 수 있음을 보였다.[22] 이는 부가르 이스마일로프(Vugar Ismailov)에 의해 불연속적인 경우까지 확장되었다.[23] 2024년, 류즈밍(Ziming Liu)과 공동 연구자들은 실용적인 응용 사례를 제시했다.[24]
참조
[1]
논문
Multilayer feedforward networks are universal approximators
1989-01
[2]
문서
Approximation with Artificial Neural Networks
Faculty of Sciences, Eötvös Loránd University, Hungary
2001
[3]
논문
Approximation by superpositions of a sigmoidal function
1989
[4]
논문
Approximation capabilities of multilayer feedforward networks
[5]
논문
Multilayer feedforward networks with a nonpolynomial activation function can approximate any function
http://archive.nyu.e[...]
1993-01
[6]
논문
Approximation theory of the MLP model in neural networks
1999-01
[7]
논문
Approximation by neural networks with a bounded number of nodes at each level
2003-06
[8]
논문
Error bounds for approximations with deep ReLU networks
2017-10
[9]
논문
The Expressive Power of Neural Networks: A View from the Width
http://papers.nips.c[...]
Curran Associates
[10]
arXiv
Approximating Continuous Functions by ReLU Nets of Minimal Width
2018
[11]
conference
Universal Approximation with Deep Narrow Networks
2020-07
[12]
논문
Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions
https://proceedings.[...]
2024
[13]
논문
Lower bounds for approximation by MLP neural networks
1999-04
[14]
논문
Approximation capability of two hidden layer feedforward neural networks with fixed weights
2018-11
[15]
논문
On the approximation by single hidden layer feedforward neural networks with fixed weights
2018-02
[16]
논문
Optimal approximation rate of ReLU networks in terms of width and depth
2022-01
[17]
conference
Minimum Width for Universal Approximation
2021
[18]
conference
Universal approximation power of deep residual neural networks via nonlinear control theory
2021
[19]
논문
Universal Approximation Power of Deep Residual Neural Networks Through the Lens of Control
2023-05
[20]
논문
Achieve the Minimum Width of Neural Networks for Universal Approximation
https://openreview.n[...]
2023-02-01
[21]
논문
Universal Approximation Theorems for Differentiable Geometric Deep Learning
http://jmlr.org/pape[...]
2022
[22]
논문
Kolmogorov's mapping neural network existence theorem
https://cir.nii.ac.j[...]
1987
[23]
논문
A three layer neural network can represent any multivariate function
2023-07
[24]
arXiv
KAN: Kolmogorov-Arnold Networks
2024-05-24
[25]
논문
Noncompact uniform universal approximation
https://doi.org/10.1[...]
[26]
conference
Universal Approximation with Certified Networks
https://openreview.n[...]
2020
[27]
논문
Function approximation with spiked random networks
https://zenodo.org/r[...]
[28]
conference
ResNet with one-neuron hidden layers is a Universal Approximator
https://papers.nips.[...]
Curran Associates
2018
[29]
conference
How Powerful are Graph Neural Networks?
https://openreview.n[...]
2019
[30]
conference
Universal Function Approximation on Graphs
https://proceedings.[...]
Curran Associates
2020
[31]
conference
Non-Euclidean Universal Approximation
https://papers.nips.[...]
Curran Associates
2020
[32]
논문
Universality of deep convolutional neural networks
[33]
논문
Refinement and Universal Approximation via Sparsely Connected ReLU Convolution Nets
[34]
논문
Universal Approximation Using Radial-Basis-Function Networks
[35]
논문
Universal Approximations of Invariant Maps by Neural Networks
[36]
논문
Universal Approximation Property of Hamiltonian Deep Neural Networks
2023
[37]
논문
On the approximate realization of continuous mappings by neural networks
1989-01
[38]
논문
Multilayer feedforward networks are universal approximators
1989-01
[39]
서적
Neural Networks: A Comprehensive Foundation
Prentice Hall
1998
[40]
서적
Fundamentals of Artificial Neural Networks
MIT Press
1995
[41]
웹사이트
Neural Networks and Deep Learning
http://neuralnetwork[...]
2015
[42]
논문
Approximating Continuous Functions by ReLU Nets of Minimal Width
2018
[43]
논문
Minimum Width for Universal Approximation
https://openreview.n[...]
2020-09-28
[44]
논문
Optimal approximation rate of ReLU networks in terms of width and depth
2022-01
[45]
논문
Deep Network Approximation for Smooth Functions
2021-01
[46]
논문
Nonparametric estimation of composite functions
2009-06-01
[47]
논문
Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review
2017-03-14
[48]
간행물
Deep, Skinny Neural Networks are not Universal Approximators
https://openreview.n[...]
2019
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com