인공 신경망

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 모델
4. 인공신경망의 사용 방법
5. 적용
6. 인공 신경망 소프트웨어
7. 신경망 알고리즘 종류
8. 이론적 특성
9. 인공신경망에 대한 논란
10. 훈련
11. 유형
12. 네트워크 설계
13. 응용 분야
14. 이론적 속성
15. 비판
16. 갤러리
17. 최근 발전 및 향후 방향
18. 참고 문헌
참조

1. 개요

인공 신경망(Artificial Neural Network, ANN)은 생물학적 신경망의 구조와 기능을 모방하여 만든 수학적 모델로, 복잡한 비선형 관계를 학습하고 패턴을 인식하는 데 사용된다. 초기에는 생물학적 모델을 따랐으나, 점차 경험적 결과를 개선하는 방향으로 발전하였다. 인공 신경망은 다양한 분야에서 함수 근사, 회귀 분석, 패턴 인식, 데이터 처리 등의 목적으로 활용되며, 딥 러닝 기술의 발전에 따라 더욱 주목받고 있다.

개요
약어	ANN NN
정의	기계 학습에서, 동물 뇌의 생물학적 신경망의 구조와 기능을 모방한 모델
다른 이름	인공 신경망 신경망
구조
신호	실수
가중치	학습 과정에서 조정되는 연결 강도
레이어	종류: 입력 레이어,출력 레이어,은닉 레이어 심층 신경망: 최소 2개 이상의 은닉 레이어를 가진 네트워크
구성 요소	인공 뉴런 (노드) 에지 (연결) 시냅스(뇌)
신호 처리	각 인공 뉴런은 연결된 뉴런으로부터 신호를 받아 처리 후 다른 연결된 뉴런으로 신호 전송
활성화 함수	입력 합의 비선형 함수
학습 방식
종류	지도 학습 비지도 학습
활용 분야
0	예측 모델링
1	적응 제어
2	인공 지능 문제 해결
3	컴퓨터 비전
4	음성 인식
5	패턴 인식
6	데이터 클러스터링
관련 학회 및 저널
0	NIPS
1	ICML
2	ML
3	JMLR
4	ArXiv:cs.LG
주요 알고리즘 및 모델
0	오토인코더
1	딥러닝
2	DeepDream
3	다층 퍼셉트론
4	RNN
5	LSTM
6	GRU
7	제한된 볼츠만 머신
8	SOM
9	CNN

2. 역사

워렌 매컬록(Warren McCulloch)과 월터 피츠(Walter Pitts)는 1943년에 신경 회로망 이론을 발표했지만, 실제 뇌에 비해 단순화되어 당시에는 주목받지 못했다.^{[ja-6]서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社} 1949년에는 도널드 헵(Donald Hebb)이 시냅스 가소성 이론을 발표했으나, 이 또한 "단순한 탁상공론"으로 여겨졌다.^{[ja-6]서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社}

1967년에 소뇌의 신경 회로망 구조가 밝혀지면서 매컬록, 피츠, 헵의 이론이 소뇌를 잘 모델링한다는 것이 알려졌고, 퍼셉트론이 주목받기 시작했다.^{[ja-6]서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社}^{[ja-7]서적 The Cerebellum as a Neuronal Machine Springer} 하지만 1970년대에 마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)가 퍼셉트론의 한계를 증명하면서 신경 회로망 연구는 침체되었다.^{[ja-6]서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社}

그럼에도 연구는 계속되었고, 신경 회로망을 다층화하는 아이디어가 나왔지만 매개변수 최적화에 어려움이 있었다. 1986년 데이비드 러멜하트(David Rumelhart) 등이 오차 역전파법(backpropagation)을 재발견하면서 '뉴럴 네트워크'로서 다시 주목받게 되었다.^{[ja-6]서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社}

워렌 매컬록과 월터 피츠는 1943년에 수학과 임계 논리를 바탕으로 신경망 계산 모델을 만들었다.^{[ko-1]저널 A Logical Calculus of Ideas Immanent in Nervous Activity} 이 모델은 뇌의 신경학적 처리와 인공 신경망 활용이라는 두 가지 접근법의 기초가 되었다.

1940년대 후반, 도널드 헤비안은 헤비안 학습(Hebbian learning)이라는 학습 원리를 제안했다.^{[ko-2]서적 The Organization of Behavior Wiley} 헤비안 학습은 자율학습의 초기 모델이며, 장기강화(long term potentiation)의 기초가 되었다. 1948년에는 튜링의 B-type 기계에 계산 모델이 적용되었다.

팔리와 웨슬리 클라크는 1954년에 헤비안 네트워크를 모의 실험하기 위해 계산 모델을 사용했다.^{[ko-3]저널 Simulation of Self-Organizing Systems by Digital Computer} 이후 로체스터, 홀랜드, 하빗, 두다 등이 신경망 계산 기계를 만들었다.^{[ko-4]저널 Tests on a cell assembly theory of the action of the brain, using a large digital computer}

프랑크 로젠블랫(Frank Rosenblatt)는 1958년에 패턴 인식을 위한 퍼셉트론 알고리즘을 만들었다.^{[ko-5]저널 The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain} 퍼셉트론은 간단한 덧셈과 뺄셈을 하는 2층 구조의 학습 컴퓨터망이다. 로젠블랫은 배타적 논리합 회로와 같은 기본적인 퍼셉트론으로는 구현할 수 없는 회로도 제시했는데, 이는 오차역전파법이 개발된 후에야 가능해졌다.^{[ko-6]서적 Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences}

마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)는 1969년에 기계학습 논문을 발표하여 신경망 연구에 침체를 가져왔다.^{[ko-7]서적 An Introduction to Computational Geometry MIT Press} 그들은 단층 신경망이 배타적 논리합 회로를 처리할 수 없고, 거대한 신경망을 처리하는 데 필요한 컴퓨터 성능이 부족하다는 것을 지적했다. 신경망 연구는 컴퓨터 성능이 향상되고 오차역전파법이 개발될 때까지 더디게 진행되었다.

1980년대 중반에는 연결주의(connectionism)가 주목받았다. 데이비드 럼멜하트(David E. Rumelhart)와 제임스 맥클레랜드는 1986년에 연결주의를 이용한 신경망 모의 실험에 대한 교과서를 출판했다.^{[ko-8]서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition MIT Press}

인공신경망이 뇌 기능을 어느 정도 반영하는지에 대한 논란이 있지만, 인공지능 분야에서는 뇌 신경 처리의 간단한 모델로 간주된다.^{[ko-9]웹인용 Neural Networks Module 2012} 인공신경망은 SVM과 같은 다른 기계학습 방법보다 인기를 얻고 있으며, 2000년대 이후 딥 러닝의 발전으로 더욱 주목받고 있다.

2. 1. 초기 연구

오늘날의 심층 신경망은 200년 전 통계학의 초기 연구에 기반을 두고 있다. 가장 단순한 종류의 순방향 신경망(FNN)은 선형 활성화 함수를 가진 단일 출력 노드 계층으로 구성된 선형 네트워크이다. 입력은 가중치 시리즈를 통해 출력으로 직접 공급된다. 가중치와 입력의 곱의 합은 각 노드에서 계산된다. 이러한 계산된 출력과 주어진 목표 값 사이의 평균 제곱 오차는 가중치를 조정하여 최소화된다. 이 기술은 최소 제곱법 또는 선형 회귀로 2세기 이상 알려져 왔다. 이는 르장드르(1805)와 가우스(1795)가 행성 운동을 예측하기 위해 점 집합에 대한 좋은 대략적인 선형 적합을 찾는 수단으로 사용되었다.^{[en-7]기타 "A List of Writings Relating to the Method of Least Squares"}^{[en-8]간행물 Gauss and the Invention of Least Squares}^{[en-9]서적 Linear Algebra With Applications Prentice Hall}^{[en-1]웹사이트 Explained: Neural networks MIT News Office 2017-04-14}^{[en-10]서적 The History of Statistics: The Measurement of Uncertainty before 1900 Harvard}

역사적으로 폰 노이만 구조와 같은 디지털 컴퓨터는 여러 프로세서에 의해 메모리에 접근하여 명시적 명령을 실행하는 방식으로 작동한다. 반면 일부 신경망은 연결주의 프레임워크를 통해 생물학적 시스템의 정보 처리를 모델링하려는 노력에서 비롯되었다. 폰 노이만 모델과 달리 연결주의 컴퓨팅은 메모리와 처리를 분리하지 않는다.

워렌 맥컬록(Warren McCulloch)과 월터 피츠(Walter Pitts)^{[en-1]웹사이트 Explained: Neural networks MIT News Office 2017-04-14}(1943)는 신경망에 대한 비학습적 계산 모델을 고려했다.^{[en-11]뉴스 Representation of Events in Nerve Nets and Finite Automata Princeton University Press} 이 모델은 연구를 두 가지 접근 방식으로 나누는 길을 열었다. 한 가지 접근 방식은 생물학적 과정에 초점을 맞추었고 다른 한 가지는 인공 지능에 신경망을 적용하는 데 초점을 맞추었다.

1940년대 후반, D. O. 헵(Donald O. Hebb)^{[en-12]서적 The Organization of Behavior Wiley}은 신경 가소성 메커니즘을 기반으로 헵의 학습으로 알려지게 된 학습 가설을 제안했다. 이는 로젠블랫의 퍼셉트론 및 호프필드 네트워크와 같은 많은 초기 신경망에 사용되었다. 팔리(Farley)와 클라크(Wesley A. Clark)^{[en-13]간행물 Simulation of Self-Organizing Systems by Digital Computer} (1954)는 헵 네트워크를 시뮬레이션하기 위해 계산 기계를 사용했다. 다른 신경망 계산 기계는 로체스터(Nathaniel Rochester), 홀랜드(Holland), 해빗(Habit) 및 두다(Duda)(1956)에 의해 만들어졌다.^{[en-14]간행물 Tests on a cell assembly theory of the action of the brain, using a large digital computer}

1958년 심리학자 프랭크 로젠블랫(Frank Rosenblatt)은 미국 해군 연구소(Office of Naval Research)의 자금 지원을 받아 최초로 구현된 인공 신경망 중 하나인 퍼셉트론을 설명했다.^{[en-15]기타 Neural Networks and Learning Machines}^{[en-16]간행물 The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain}^{[en-17]서적 Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences}^{[en-18]간행물 The Perceptron—a perceiving and recognizing automaton Cornell Aeronautical Laboratory}^{[en-19]간행물 A Sociological Study of the Official History of the Perceptrons Controversy}

R. D. 조셉(Joseph) (1960)^{[en-20]서적 Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo}는 팔리(Farley)와 클라크(Clark)의 더 초기 퍼셉트론 유사 장치를 언급한다.^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022} "MIT 링컨 연구소의 팔리와 클라크는 실제로 퍼셉트론 유사 장치 개발에서 로젠블랫보다 앞섰다." 그러나 "그들은 주제를 포기했다."

퍼셉트론은 인공 신경망 연구에 대한 대중의 흥분을 불러일으켰고, 미국 정부는 자금을 대폭 늘렸다. 이는 퍼셉트론이 인간 지능을 모방할 수 있다는 컴퓨터 과학자들의 낙관적인 주장에 힘입어 "AI의 황금 시대"에 기여했다.^{[en-21]영어 서적 Artificial Intelligence A Modern Approach Pearson Education}

최초의 퍼셉트론에는 적응형 숨겨진 장치가 없었다. 그러나 조셉(Joseph)(1960)^{[en-20]서적 Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo}은 적응형 숨겨진 계층이 있는 다층 퍼셉트론에 대해서도 논의했다. 로젠블랫(Rosenblatt)(1962)^{[en-22]서적 Principles of Neurodynamics Spartan, New York}은 H. D. 블록(Block)과 B. W. 나이트(Knight)의 연구를 인용하고 채택했으며, 그들의 업적을 인정했다. 불행히도 이러한 초기 노력은 숨겨진 장치, 즉 딥 러닝을 위한 작동 학습 알고리즘으로 이어지지 못했다.

1943년, 워렌 매컬록(Warren McCulloch)과 월터 피츠(Walter Pitts)가 형식 뉴런(formal neuron)을 발표했다.
1958년, 프랭크 로젠블랫(Frank Rosenblatt)이 퍼셉트론(perceptron)을 발표했다.
1969년, 마빈 민스키(Marvin Minsky)와 시모어 페이퍼트(Seymour Papert)가 저서 《퍼셉트론》에서 단순 퍼셉트론은 선형 분리 불가능한 패턴을 식별할 수 없다는 것을 보였다.
1979년, 후쿠시마 구니히코(福島邦彦)가 네오코그니트론(neocognitron)을 발표하고 문자 인식에 사용했으며, 후에 이것이 합성곱 신경망(convolutional neural network)으로 발전한다.
1982년, 존 호프필드(John Hopfield)에 의해 호프필드 네트워크(Hopfield network) (재귀 신경망(recurrent neural network))가 제안되었다.
1985년, 제프리 힌튼(Geoffrey Hinton) 등에 의해 볼츠만 머신(Boltzmann machine)이 제안되었다.
1986년, 데이비드 러멜하트(David Rumelhart) 등에 의해 오차 역전파법(역전파(backpropagation))이 제안(재발견)되었다.
1988년, 합성곱 신경망(convolutional neural network)을 혼마 도시미쓰(本間俊光) 등이 음소 인식에^{[ja-8]논문 An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification}, 1989년에는 얀 르쿤(Yann LeCun) 등이 문자 인식에 사용했다.^{[ja-9]논문 Generalization and Network Design Strategies}^{[ja-10]논문 Backpropagation applied to handwritten zip code recognition} 르쿤 등의 다층 합성곱 신경망은 후에 딥 러닝(deep learning)의 일종으로 분류되게 된다.
2006년, 제프리 힌튼(Geoffrey Hinton) 등에 의해 오토인코더(autoencoder)^{[ja-11]웹사이트 Reducing the Dimensionality of Data with Neural Networks} 및 심층 신뢰 신경망(deep belief network)^{[ja-12]웹사이트 A fast learning algorithm for deep belief nets}이 제안되었고, 이 이론이 2010년대에 딥 러닝(deep learning)이라고 불리는 분야를 형성했다.

2. 2. 1960년대와 1970년대 딥 러닝의 획기적인 발전

1960년대와 1970년대에는 인공 신경망(ANN)에 대한 기초 연구가 진행되었다. 최초로 작동하는 딥 러닝 알고리즘은 알렉세이 이바흐넨코(Alexey Ivakhnenko)와 라파가 소련에서 발표한 임의의 깊은 신경망을 훈련하는 방법인 데이터 처리 그룹 방법(Group method of data handling)(1965)이었다.^{[en-23]서적 Cybernetics and Forecasting Techniques American Elsevier Publishing Co.} 그들은 이것을 다항 회귀의 한 형태 또는 로젠블라트의 퍼셉트론의 일반화로 간주했다. 1971년 논문에서는 회귀 분석을 통한 계층별 훈련을 기반으로 하는 이 방법으로 훈련된 8개 계층의 심층 네트워크를 설명했다.^{[en-25]간행물 Polynomial theory of complex systems 1971} 불필요한 숨겨진 유닛은 별도의 유효성 검사 세트를 사용하여 제거된다. 노드의 활성화 함수는 콜모고로프-가보 다항식이므로, 이것들은 곱셈 유닛 또는 "게이트"를 가진 최초의 심층 네트워크이기도 했다.^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022}

확률적 경사 하강법(stochastic gradient descent)으로 훈련된 최초의 딥 러닝 다층 퍼셉트론(multilayer perceptron)은 1967년 아마리 순이치(Shun'ichi Amari)에 의해 발표되었다.^{[en-27]간행물 A Stochastic Approximation Method}^{[en-28]간행물 A theory of adaptive pattern classifier 1967} 아마리의 학생인 사이토가 실시한 컴퓨터 실험에서 두 개의 수정 가능한 레이어를 가진 5 레이어 MLP는 비선형적으로 분리 가능한 패턴 클래스를 분류하기 위한 지식 표현(Knowledge representation)을 학습했다.^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022} 하드웨어 및 하이퍼파라미터 튜닝의 후속 개발로 인해 엔드투엔드 확률적 경사 하강법(stochastic gradient descent)이 현재 지배적인 훈련 기술이 되었다.

1969년, 후쿠시마 구니히코(Kunihiko Fukushima)는 ReLU(rectified linear unit) (정류된 선형 유닛) 활성화 함수(activation function)를 도입했다.^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022}^{[en-29]간행물 Visual feature extraction by a multilayered network of analog threshold elements 1969}^{[en-30]간행물 Neural network with unbounded activation functions is universal approximator} 정류기는 딥 러닝에서 가장 인기 있는 활성화 함수가 되었다.^{[en-31]arXiv Searching for Activation Functions 2017-10-16}

마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)(1969)의 연구 이후 미국에서의 연구는 정체되었다.^{[en-32]서적 Perceptrons: An Introduction to Computational Geometry MIT Press} 그들은 기본 퍼셉트론이 배타적 논리합 회로를 처리할 수 없다는 점을 강조했다. 이러한 통찰력은 이바흐넨코(1965)와 아마리(1967)의 심층 네트워크와는 관련이 없었다.

1976년에는 신경망 학습에 전이 학습이 도입되었다.^{[en-33]기타 "The influence of pattern similarity and transfer learning on the base perceptron training" (original in Croatian)} ^{[en-34]기타 "Reminder of the first paper on transfer learning in neural networks, 1976"}

합성곱 계층과 다운샘플링 계층 및 가중치 복제를 갖는 합성곱 신경망(convolutional neural network)(CNN)을 위한 딥 러닝 아키텍처는 후쿠시마 구니히코(Kunihiko Fukushima)가 1979년에 도입한 네오코그니트론(Neocognitron)에서 시작되었지만 역전파로 훈련되지는 않았다.^{[en-35]간행물 Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron}^{[en-36]간행물 Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position}^{[en-85]학술지 Deep Learning in Neural Networks: An Overview}

2. 3. 역전파

역전파는 1673년 고트프리트 빌헬름 라이프니츠가 유도한 연쇄 법칙의 효율적인 응용으로, 미분 가능한 노드 네트워크에 적용된다.^{[en-37]영어 서적 The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) Open court publishing Company 1920} "오차 역전파"라는 용어는 실제로 1962년 로젠블랫이 도입했지만,^{[en-22]서적 Principles of Neurodynamics Spartan, New York} 그는 이를 구현하는 방법을 몰랐다. 하지만 헨리 J. 켈리는 1960년 제어 이론 맥락에서 역전파의 연속적인 전조를 가지고 있었다.^{[en-38]간행물 Gradient theory of optimal flight paths} 1970년, 세포 린나이마는 그의 석사 논문(1970)에서 역전파의 현대적인 형태를 발표했다.^{[en-39]Masters The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors University of Helsinki}^{[en-40]간행물 Taylor expansion of the accumulated rounding error}^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022} G.M. 오스트롭스키 등이 1971년에 이를 재발표했다.^{[en-41]기타 On the computation of derivatives}^{[en-45]웹사이트 Who Invented Backpropagation? IDSIA, Switzerland 2014-10-25} 폴 워보스는 1982년에 역전파를 신경망에 적용했다.^{[en-42]서적 System modeling and optimization Springer}^{[en-43]영어 서적 Talking Nets: An Oral History of Neural Networks The MIT Press 2000} (1994년 책으로 재인쇄된 그의 1974년 박사 학위 논문^{[en-44]서적 The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting John Wiley & Sons}은 아직 이 알고리즘을 설명하지 않았다.^{[en-45]웹사이트 Who Invented Backpropagation? IDSIA, Switzerland 2014-10-25}) 1986년, 데이비드 E. 루멜하트 등이 역전파를 대중화했지만 원본 논문을 인용하지는 않았다.^{[en-46]영어 간행물 Learning representations by back-propagating errors 1986-10}

역전파는 학습 중에 발견된 각 오류를 보정하기 위해 연결 가중치를 조정하는 데 사용되는 방법이다. 오류량은 연결들 사이에서 효과적으로 분할된다. 기술적으로, 역전파는 가중치에 대한 주어진 상태와 관련된 비용 함수의 기울기(미분)를 계산한다. 가중치 업데이트는 확률적 경사 하강법 또는 극단 학습 기계,^{[en-122]journal Extreme learning machine: theory and applications} "무전파" 네트워크,^{[en-123]journal The no-prop algorithm: A new learning algorithm for multilayer neural networks} 역추적 없는 훈련,^{[en-124]arXiv Training recurrent networks without backtracking} "무게 없는" 네트워크,^{[en-125]journal A Practical Guide to Training Restricted Boltzmann Machines 2017-06-27}^{[en-126]간행물 ESANN 2009} 및 비연결주의 신경망과 같은 다른 방법을 통해 수행할 수 있다.

신경망 학습은 최적화 문제로 정식화할 수 있다. 현재 가장 널리 사용되는 방법은 경사법의 일종인 경사 하강법을 연쇄 법칙과 함께 사용하는 역전파이다. 경사법에 의존하지 않는 학습법(gradient-free method)은 역사적으로도 많이 사용되었으며, 현재도 연구가 진행되고 있다.

2. 4. 합성곱 신경망

1979년 후쿠시마 구니히코의 합성곱 신경망 구조^{[en-35]간행물 Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron}는 CNN의 일반적인 다운샘플링 절차인 최대 풀링도 도입했다.^{[en-47]간행물 Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position 1982-01-01} CNN은 컴퓨터 비전의 필수적인 도구가 되었다.

시간 지연 신경망은 1987년 알렉스 웨이벌에 의해 음소 인식에 CNN을 적용하기 위해 도입되었다. 그것은 합성곱, 가중치 공유 및 역전파를 사용했다.^{[en-48]학술회의 Phoneme Recognition Using Time-Delay Neural Networks 1987-12}^{[en-49]간행물 'Phoneme Recognition Using Time-Delay Neural Networks' 1989-03} 1988년, 웨이 장은 역전파 훈련된 CNN을 알파벳 인식에 적용했다.^{[en-50]간행물 Shift-invariant pattern recognition neural network and its optical architecture 1988}

1989년, 얀 르쿤 등은 우편물에 있는 필기 우편번호를 인식하기 위해 LeNet이라는 CNN을 만들었다. 훈련에는 3일이 걸렸다.^{[en-51]논문 "Backpropagation Applied to Handwritten Zip Code Recognition" 1989} 1990년, 웨이 장은 광학 컴퓨팅 하드웨어에 CNN을 구현했다.^{[en-52]학술지 Parallel distributed processing model with local space-invariant interconnections and its optical architecture 1990} 1991년, CNN은 의료 영상 객체 분할^{[en-53]학술지 Image processing of human corneal endothelium based on a learning network 1991}과 유방 조영술에서 유방암 검출에 적용되었다.^{[en-54]학술지 Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network 1994} 얀 르쿤 등이 만든 숫자 분류 7단계 CNN인 LeNet-5(1998)는 여러 은행에서 32×32 픽셀 이미지로 디지털화된 수표의 필기 숫자를 인식하는 데 적용되었다.^{[en-55]학술지 Gradient-based learning applied to document recognition 2016-10-07}

1988년부터^{[en-56]논문 "Predicting the secondary structure of globular proteins using neural network models." 1988}^{[en-57]논문 "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." 1988} 신경망의 사용은 단백질 구조 예측 분야를 변화시켰으며, 특히 다중 서열 정렬에서 생성된 '프로필'(행렬)에 첫 번째 캐스케이드 네트워크가 훈련되었을 때 그러했다.^{[en-58]논문 "Prediction of protein secondary structure at better than 70% accuracy." 1993}

합성곱 신경망(Convolutional Neural Network)이란 층간이 완전 연결이 아닌 순전파형 신경망의 일종이다. 주로 이미지를 대상으로 사용되는 경우가 많다.

2. 5. 순환 신경망

RNN의 한 기원은 통계역학이었다. 1972년, 아마리 슌이치(Shun'ichi Amari)는 헤비안 학습 규칙에 의해 아이징 모형(Ising model)의 가중치를 수정하여 학습 구성 요소를 추가한 연상 기억 모델로 제안했다.^{[en-59]학술지 Learning Patterns and Pattern Sequences by Self-Organizing Nets of Threshold Elements 1972-11} 이것은 존 호프필드(John Hopfield)(1982)에 의해 호프필드 네트워크(Hopfield network)로 대중화되었다.^{[en-60]학술지 Neural networks and physical systems with emergent collective computational abilities 1982} RNN의 또 다른 기원은 신경과학이었다. "순환"이라는 단어는 해부학에서 루프와 같은 구조를 설명하는 데 사용된다. 1901년, 산티아고 라몬 이 카할(Santiago Ramón y Cajal)은 소뇌(Cerebellum) 피질에서 "반복적인 반원"을 관찰했다.^{[en-61]영어 학술지 The Importance of Cajal's and Lorente de Nó's Neuroscience to the Birth of Cybernetics 2023-07-05} 도널드 O. 헵(Donald O. Hebb)은 단기 기억에 대한 설명으로 "반향 회로"를 고려했다.^{[en-62]웹사이트 reverberating circuit 2024-07-27} 매컬럭과 피츠(McCulloch and Pitts)의 논문(1943)은 사이클을 포함하는 신경망을 고려했으며, 이러한 네트워크의 현재 활동은 과거의 활동에 의해 무한정 영향을 받을 수 있다고 언급했다.^{[en-63]학술지 A logical calculus of the ideas immanent in nervous activity 1943-12}

1982년에 배열 아키텍처(다층 퍼셉트론 아키텍처가 아닌)를 가진 순환 신경망인 크로스바 적응형 배열은 출력에서 감독자(교수) 입력으로 직접적인 순환 연결을 사용했다.^{[en-64]서적 "A self-learning system using secondary reinforcement" North-Holland 1982}^{[en-65]간행물 "Neuro genetic agents and structural theory of self-reinforcement learning systems" CMPSCI Technical Report 95-107, University of Massachusetts at Amherst 1995} 행동(결정)을 계산하는 것 외에도 결과 상황에 대한 내부 상태 평가(감정)를 계산했다. 외부 감독자를 제거하여 신경망에 자기 학습 방법을 도입했다.

인지 심리학에서 1980년대 초반의 학술지 American Psychologist는 인지와 감정 사이의 관계에 대한 토론을 진행했다. 1980년 자이언스(Zajonc)는 감정이 먼저 계산되고 인지와 독립적이라고 말했고, 1982년 라자루스(Lazarus)는 인지가 먼저 계산되고 감정과 분리될 수 없다고 말했다.^{[en-66]논문 "Feeling and thinking: Preferences need no inferences" 1980}^{[en-67]논문 "Thoughts on the relations between emotion and cognition" 1982} 1982년, 크로스바 적응형 배열은 인지-감정 관계의 신경망 모델을 제시했다.^{[en-1]웹사이트 Explained: Neural networks MIT News Office 2017-04-14}^{[en-68]간행물 "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981" 2014} 이것은 인공지능 시스템인 순환 신경망이 인지 심리학에서 다루는 이슈에 동시에 기여한 토론의 예였다.

두 가지 초기 영향력 있는 연구는 조던 네트워크(Jordan network)(1986)와 엘만 네트워크(Elman network)(1990)로, RNN을 인지심리학 연구에 적용했다.

1980년대에 역전파는 심층 RNN에서 잘 작동하지 않았다. 이 문제를 극복하기 위해 1991년 위르겐 슈미트후버(Jürgen Schmidhuber)는 자기 지도 사전 학습( 챗GPT(ChatGPT)의 "P" 부분) 및 신경 지식 증류(knowledge distillation)의 중요한 개념을 도입한 "신경 시퀀스 청커" 또는 "신경 히스토리 압축기"를 제안했다.^{[en-69]학술지 Neural Sequence Chunkers 1991-04}^{[en-70]학술지 Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)}^{[en-1]웹사이트 Explained: Neural networks MIT News Office 2017-04-14} 1993년, 신경 히스토리 압축기 시스템은 시간에 따라 펼쳐진 RNN에서 1000개 이상의 후속 레이어가 필요한 "매우 심층적인 학습" 작업을 해결했다.^{[en-71]서적 Habilitation thesis: System modeling and optimization}

1991년, 제프 호흐라이터(Sepp Hochreiter)의 학위 논문^{[en-72]간행물 Untersuchungen zu dynamischen neuronalen Netzen Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber 1991}은 기울기 소실 문제(vanishing gradient problem)를 식별하고 분석했으며^{[en-72]간행물 Untersuchungen zu dynamischen neuronalen Netzen Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber 1991}^{[en-73]서적 A Field Guide to Dynamical Recurrent Networks John Wiley & Sons 2017-06-26} 이를 해결하기 위해 순환 잔차 연결을 제안했다. 그와 슈미트후버는 여러 응용 분야에서 정확도 기록을 세운 장단기 메모리(long short-term memory)(LSTM)를 도입했다.^[en-74]Q^{[en-75]학술지 Long Short-Term Memory 1997-11-01} 이것은 1999년에 도입된 망각 게이트를 필요로 하는 현대 버전의 LSTM은 아니었다.^{[en-76]서적 9th International Conference on Artificial Neural Networks: ICANN '99} 이것은 RNN 아키텍처의 기본 선택이 되었다.

1985~1995년 동안 통계역학에서 영감을 받아 테리 세지노프스키(Terry Sejnowski), 피터 데이언(Peter Dayan), 제프리 힌튼(Geoffrey Hinton) 등을 비롯한 여러 아키텍처와 방법이 개발되었으며, 여기에는 볼츠만 머신(Boltzmann machine),^{[en-77]학술지 A learning algorithm for boltzmann machines 1985-01-01} 제한된 볼츠만 머신(restricted Boltzmann machine),^{[en-78]서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations MIT Press} 헬름홀츠 머신(Helmholtz machine),^{[en-79]학술지 The Helmholtz machine. 1995} 및 웨이크 슬립 알고리즘(wake-sleep algorithm)이 포함된다.^{[en-80]학술지 The wake-sleep algorithm for unsupervised neural networks 1995-05-26} 이것들은 심층 생성 모델의 비지도 학습을 위해 설계되었다.

피드 포워드 신경망과 달리, 양방향으로 신호가 전파되는 모델이다. 모든 노드가 다른 모든 노드와 결합을 가지고 있는 경우, 완전 연결 순환 신경망이라고 부른다. 시퀀셜한 데이터에 대해 효과적이며, 자연어 처리나 음성, 동영상 분석 등에 이용된다.^{[ja-15]논문 A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures 2019-07-01}

호프필드 네트워크

2. 6. 딥러닝

2009년에서 2012년 사이, 인공 신경망(ANN)은 이미지 인식 대회에서 상을 받기 시작하여 다양한 과제에서 인간 수준의 성능에 접근했으며, 처음에는 패턴 인식과 필기 인식 분야에서 두각을 나타냈다.^{[en-81]웹사이트 2012 Kurzweil AI Interview 2018-08-31}^{[en-82]웹사이트 How bio-inspired deep learning keeps winning competitions 2017-06-16} 2011년, 단 시레산(Dan Ciresan), 우엘리 마이어(Ueli Meier), 조나단 마시(Jonathan Masci), 루카 마리아 감바르델라(Luca Maria Gambardella), 그리고 위르겐 슈미트후버(Jürgen Schmidhuber)가 개발한 ''DanNet''이라는 이름의 CNN은 시각 패턴 인식 대회에서 처음으로 인간을 능가하는 성능을 달성하여 전통적인 방법을 3배나 능가했다.^{[en-83]학술지 Deep, Big, Simple Neural Nets for Handwritten Digit Recognition 2010-09-21}^{[en-84]학술지 Flexible, High Performance Convolutional Neural Networks for Image Classification 2017-06-13}^{[en-85]학술지 Deep Learning in Neural Networks: An Overview} 그 후 더 많은 대회에서 우승했다.^{[en-86]서적 Advances in Neural Information Processing Systems 25 Curran Associates, Inc. 2017-06-13}^{[en-87]서적 Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013 2013} 그들은 또한 GPU에서 맥스 풀링(Max pooling) CNN을 사용하는 것이 성능을 크게 향상시킨다는 것을 보여주었다.^{[en-88]서적 2012 IEEE Conference on Computer Vision and Pattern Recognition}

2012년 10월, 알렉스 크리제프스키(Alex Krizhevsky), 일리아 서츠케버(Ilya Sutskever), 그리고 제프리 힌튼(Geoffrey Hinton)이 개발한 AlexNet이 대규모 ImageNet 대회에서 얕은 머신 러닝 방법보다 훨씬 큰 차이로 우승했다.^{[en-89]학술지 ImageNet Classification with Deep Convolutional Neural Networks 2017-05-24} 추가적인 점진적 개선에는 카렌 시모니안(Karen Simonyan)과 앤드류 지서먼(Andrew Zisserman)이 개발한 VGG-16 네트워크^{[en-90]arXiv Very Deep Convolution Networks for Large Scale Image Recognition}와 구글의 Inceptionv3^{[en-91]학술지 Going deeper with convolutions 2015}가 포함된다.

2012년, 앤드류 응(Andrew Ng)과 제프 딘(Jeff Dean)은 레이블이 없는 이미지를 보는 것만으로 고양이와 같은 고차원 개념을 인식하는 방법을 학습하는 네트워크를 만들었다.^{[en-92]arXiv Building High-level Features Using Large Scale Unsupervised Learning} GPU와 분산 컴퓨팅으로부터의 비지도 사전 학습과 증가된 컴퓨팅 성능은 특히 이미지 및 시각 인식 문제에서 더 큰 네트워크를 사용할 수 있게 했으며, 이는 "딥 러닝"으로 알려지게 되었다.^{[en-5]서적 Deep Learning MIT Press}

방사 기저 함수 네트워크(Radial basis function network)와 웨이블릿 네트워크는 2013년에 도입되었다. 이것들은 최적의 근사 속성을 제공하는 것으로 입증되었으며 비선형 시스템 식별 및 분류 응용 분야에 적용되었다.^{[en-171]논문 Lung sound classification using cepstral-based statistical features 2016-08}

생성적 적대 신경망(GAN)(이언 굿펠로우(Ian Goodfellow) 외, 2014)^{[en-93]학술대회 Generative Adversarial Networks 2019-08-20}은 2014-2018년 기간 동안 생성 모델링에서 최첨단 기술이 되었다. GAN 원리는 원래 1991년에 위르겐 슈미트후버(Jürgen Schmidhuber)가 "인공 호기심"이라고 부르며 발표했는데, 두 개의 신경망이 제로섬 게임의 형태로 서로 경쟁하며, 한 네트워크의 이득은 다른 네트워크의 손실이다.^{[en-94]학술대회 A possibility for implementing curiosity and boredom in model-building neural controllers MIT Press/Bradford Books 1991}^{[en-95]영어 학술지 Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991) 2020} 첫 번째 네트워크는 출력 패턴에 대한 확률 분포를 모델링하는 생성 모델이다. 두 번째 네트워크는 경사 하강법을 통해 이러한 패턴에 대한 환경의 반응을 예측하는 방법을 학습한다. 엔비디아(Nvidia)의 StyleGAN (2018)^{[en-96]웹사이트 GAN 2.0: NVIDIA's Hyperrealistic Face Generator 2019-10-03}은 테로 카라스(Tero Karras) 등이 개발한 Progressive GAN을 기반으로 하여 뛰어난 이미지 품질을 달성했다.^{[en-97]arXiv Progressive Growing of GANs for Improved Quality, Stability, and Variation 2018-02-26} 여기서 GAN 생성기는 피라미드 방식으로 작은 규모에서 큰 규모로 성장한다. GAN에 의한 이미지 생성은 대중적인 성공을 거두었으며, 딥페이크(Deepfake)에 대한 논쟁을 불러일으켰다.^{[en-98]웹사이트 Prepare, Don't Panic: Synthetic Media and Deepfakes witness.org 2020-11-25} 확산 모델(Diffusion model) (2015)^{[en-99]영어 학술지 Deep Unsupervised Learning using Nonequilibrium Thermodynamics PMLR 2015-06-01}은 그 이후로 DALL-E 2 (2022) 및 스테이블 디퓨전(Stable Diffusion) (2022)과 같은 시스템과 함께 생성 모델링에서 GAN을 능가했다.

2014년에는 20~30개의 레이어로 구성된 "매우 깊은 신경망"을 학습시키는 것이 최첨단 기술이었다.^{[en-100]Citation Very Deep Convolutional Networks for Large-Scale Image Recognition 2015-04-10} 너무 많은 레이어를 쌓으면 "저하" 문제로 알려진 학습, 검증 및 테스트 데이터 세트(Training, validation, and test data sets) 정확도가 급격히 감소했다.^{[en-101]arXiv Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification}^{[en-102]conference Deep Residual Learning for Image Recognition 2015-12-10} 2015년에는 매우 깊은 네트워크를 학습시키기 위해 두 가지 기술이 개발되었다. 고속도로 네트워크(highway network)는 2015년 5월에 발표되었고,^{[en-103]arXiv Highway Networks 2015-05-02} 잔차 신경망(residual neural network)(ResNet)은 2015년 12월에 발표되었다.^{[en-104]conference Deep Residual Learning for Image Recognition IEEE 2016}^{[en-105]영어 웹사이트 Microsoft researchers win ImageNet computer vision challenge 2015-12-10} ResNet은 개방형 게이트 고속도로 네트워크처럼 작동한다.

트랜스포머 역사

2010년대 동안, seq2seq 모델이 개발되었고, 어텐션 메커니즘이 추가되었다. 이것은 2017년 ''Attention Is All You Need''에서 현대적인 Transformer 아키텍처로 이어졌다.^{[en-106]arXiv Attention Is All You Need 2017-06-12} 이는 컨텍스트 창 크기에 따라 2차적으로 증가하는 계산 시간이 필요하다. 위르겐 슈미트후버(Jürgen Schmidhuber)의 고속 가중치 컨트롤러(1992)^{[en-107]journal Learning to control fast-weight memories: an alternative to recurrent nets. 1992}는 선형적으로 확장되며, 나중에 정규화되지 않은 선형 트랜스포머와 동일하다는 것이 밝혀졌다.^{[en-108]conference Transformers are RNNs: Fast autoregressive Transformers with linear attention PMLR 2020}^{[en-109]conference Linear Transformers Are Secretly Fast Weight Programmers Springer 2021}^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022} 트랜스포머는 자연어 처리에서 점점 더 선호되는 모델이 되고 있다.^{[en-110]book Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations} ChatGPT, GPT-4, BERT와 같은 많은 현대적인 대규모 언어 모델이 이 아키텍처를 사용한다.

생물물리학 모의실험 그리고 뇌신경학 컴퓨팅을 위한 계산학 디바이스들은 CMOS를 통해 만들어졌다. 최근에는 큰 범위의 기본 요소들의 분석과 합성을 위한 나노 디바이스 제작과 같은 노력들이 있다.^{[ko-10]간행물 "Nat. Nanotechnol. 2008, 3, 429–433"} 만약 성공한다면 이러한 노력은 디지털 컴퓨팅을 뛰어넘는 신경 컴퓨팅의 새로운 시대를 도래하게 할 것이다.^{[ko-11]간행물 "Nature 2008, 453, 80–83."} 왜냐하면 이것은 프로그래밍 보다는 학습에 기반하며 비록 첫 예시가 CMOS 디지털 디바이스와의 합작일지라도 이것은 기본적으로 디지털보다 아날로그이기 때문이다.

2009년부터 2012년동안 스위스 AI 연구실 IDSIA에서 위르겐 슈밋흠바(Jürgen Schmidhuber)의 연구 그룹이 개발한 재귀 신경망과 심화 피드포워드 신경망은 여덞 번의 패턴 인식과 기계학습 국제 대회에서 우승하였다.^{[ko-12]웹사이트 2012 Kurzweil AI Interview 2018-08-31}^{[ko-13]웹사이트 2012 Kurzweil AI Interview with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009–2012 2018-08-31} 예를 들면, 알렉스 그레이브스(Alex Graves et al)의 쌍방향 그리고 다중 차원의 장단기 기억(LSTM)은^{[ko-14]논문 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks Neural Information Processing Systems (NIPS) Foundation}^{[ko-15]논문 A Novel Connectionist System for Improved Unconstrained Handwriting Recognition}^{[ko-16]논문 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks Neural Information Processing Systems (NIPS) Foundation}^{[ko-17]논문 A Novel Connectionist System for Improved Unconstrained Handwriting Recognition} 2009년의 국제문서 분석 및 인식 컨퍼런스(ICDAR)의 필기 인식 부분에서 학습하게 될 세 가지 언어에 대한 아무런 사전 정보가 주어지지 않았음에도 불구하고 세 번이나 우승하였다.

IDSIA의 댄 크리슨(Dan Ciresan)과 그 동료들에 의한 빠른 GPU 기반 실행 접근 방법은 IJCNN 2011 교통 표지판 인식 대회,^{[ko-18]논문 Multi-Column Deep Neural Network for Traffic Sign Classification}^{[ko-18]논문 Multi-Column Deep Neural Network for Traffic Sign Classification} ISBI 2012 신경 구조의 분할의 전자 현미경 대회를 비롯하여 여러 패턴 인식 경연에서 여러 번 우승하였다.^{[ko-19]논문 Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images} 그들의 신경망은 또한 처음으로 교통 표지판(IJCNN 2012) 또는 MINIST 필기 인식 분야에서 인간과 견줄만한 또는 인간을 넘어서는 인공 패턴 인식이다.^{[ko-20]논문 Multi-column Deep Neural Networks for Image Classification}

심화 비선형 신경 아키텍처는 1980년 후쿠시마 구니히코(Kunihiko Fukushima)의 신인식기(neocognitron)와 비슷하다.^{[ko-21]저널 Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position} 그리고 일차 시각 피질에서 데이비드 허블(David H. Hubel)과 토르스텐 비셀(Torsten Wissel)에 의해 밝혀진 간단하고 복잡한 세포들에 영감을 받은 표준 비전 아키텍처는^{[ko-22]간행물 Hierarchical models of object recognition in cortex} 토론토대학의 조프 힌턴(Geoff Hinton) 연구실의 자율학습 방법에 의해 미리 훈련된다.^{[ko-23]웹사이트 Deep belief networks}^{[ko-24]저널 A Fast Learning Algorithm for Deep Belief Nets} 해당 연구실의 팀은 2012년 베르크(Berck)의 후원을 받는 신약 개발에 필요한 분자들을 찾는데 도움을 주는 소프트웨어 제작 대회에서 우승하였다.^{[ko-25]뉴스 Scientists See Promise in Deep-Learning Programs 2012-11-23}

3. 모델

인공 신경망(ANN)은 인간 두뇌의 구조를 모방하여 기존 알고리즘으로 해결하기 어려웠던 작업을 수행하려는 시도에서 시작되었다. 초기에는 생물학적 모델을 따르려 했으나, 곧 경험적 결과를 개선하는 방향으로 전환되었다. ANN은 비선형성과 복잡한 관계를 학습하고 모델링하는 능력이 있으며, 이는 뉴런들이 다양한 패턴으로 연결되어 일부 뉴런의 출력이 다른 뉴런의 입력이 되도록 함으로써 가능하다. 이러한 연결은 유향 가중 그래프를 형성한다.^{[en-111]book Simulation neuronaler Netze Addison-Wesley 2003}

인공 신경망은 시뮬레이션된 뉴런으로 구성되며, 각 뉴런은 노드를 통해 다른 노드에 연결된다. 이는 생물학적 축삭-시냅스-수상돌기 연결과 유사하다. 연결된 각 노드는 데이터를 입력받아 특정 작업을 수행하며, 각 연결에는 가중치가 부여되어 한 노드가 다른 노드에 미치는 영향력을 조절한다.^{[en-112]book Artificial intelligence Addison-Wesley Pub. Co} 이를 통해 뉴런 간의 신호 전달을 선택적으로 제어할 수 있다.

순전파형 신경망(피드포워드 신경망, 피드 포워드 뉴럴 네트워크/Feed-forward Neural Network^영어; '''FFN''', '''FFNN''')은 내부에 '''순환을 가지지 않는''' 신경망의 총칭이다.^{[ja-13]논문 Serial order: A parallel distributed processing approach University of California, Institute for Cognitive Science}

신경망에서는 층(레이어)의 개념이 자주 사용된다. FFN에서는 입력 레이어 → 중간 레이어 → 출력 레이어와 같이 단일 방향으로만 신호가 전파된다. 이는 회귀형 신경망과 대조되는 특징이다. 층간의 결합 방식에 따라 다양한 신경망이 존재하지만, 회귀 결합이 없는 모든 신경망은 FFN에 속한다. FFN의 예시는 다음과 같다.

단순 퍼셉트론: 1-layer 층간 완전 연결 네트워크
다층 퍼셉트론: N-layer 층간 완전 연결 네트워크
합성곱 신경망: N-layer 층간 국소 연결 네트워크(c.f. recurrent CNN; RCNN)

신경망은 다양한 요소들의 조합으로 구성되며, 각 요소는 경험적·이론적으로 밝혀진 특징을 신경망에 부여한다.

표. 신경망의 구성 요소
총칭/명칭		개념	의도/효과	예시
스킵 연결(skip connection)		x = x + f(x)	기울기 소실 방지	ResNet
			앙상블 학습	ResNet
			위치 정보 유지	U-Net
병목 구조(bottleneck structure)		W_shallow > W_middle < W_deep	특징 추출	AE
병목 구조(bottleneck structure)		W_shallow > W_middle < W_deep	압축된 잠재 표현	생성적 AE(generative AE)
계층 구조		middle(x) = f(x + bottom(x))	국소/전체 특징의 양립	U-Net GAN
일관성(consistency)	순환(cycle)	G_B2A(G_A2B(a)) = a	콘텐츠/불변 특징 유지	CycleGAN
	잠재(latent)	D(G(z)) = D(G(z+Δ))	잠재 변수 변동에 대한 견고성	ICR-BigGAN
	데이터 확장	D(Aug(x)) = D(x)	누수 없는 데이터 확장	CR-GAN
점진적(progressive)	출력	Size(G_t=0(x)) < Size(G_t=1(x))	학습의 고속화·안정화	PGGAN
점진적(progressive)	입력	Input Complexity t₀ < t₁	학습의 고속화·안정화	PA-GAN
정규화(normalization)	배치(batch)	y = γ_c Norm(x) + β_c	학습의 고속화
	레이어(layer)
	인스턴스(instance)
	그룹(group)
	조건부(Conditional)	y = γ_cnl,s Norm(c) + β_cnl,s	스타일 변환
	AdaIN	y = σ(s) Norm(c) + μ(s)	스타일 변환	StyleGAN
	SPADE		스타일 변환

신경망의 기본 단위는 "선형 변환 + 비선형 활성화; $y = \sigma (\boldsymbol{w}\boldsymbol{x})$ "이며, 구현의 기초는 점곱 나아가 적화 연산이다.^{[ja-25]웹사이트 第2章：ディープ・ニューラルネットワークのニューロチップへの実装～その勘所は!! semiconportal} 레이어 개념에 따라 스칼라 출력을 묶은 출력 벡터가 되고( $\boldsymbol{y} = \sigma (W\boldsymbol{x})$ ), Level 2 BLAS(Basic Linear Algebra Subprograms), 즉 행렬 벡터 곱이 기본이 된다. 입력의 배치화는 입출력의 행렬화와 동일하며( $Y = \sigma (WX)$ ), Level 3 BLAS(Basic Linear Algebra Subprograms), 즉 행렬곱이 기초가 된다.^{[ja-26]논문 低ランク近似を用いた深層学習の行列積の高速化}

인공지능 분야에서 신경망은 일반적으로 인공신경망을 의미한다. 인공신경망은 본질적으로 함수 $\textstyle f : X \rightarrow Y$ , $\textstyle X$ 에 대한 분포, 또는 $\textstyle X$ 와 $\textstyle Y$ 에 대한 분포를 정의하는 간단한 수학적 모델이다. 때로는 특정 학습 알고리즘이나 학습 규칙과 밀접하게 연관되어 있다. 인공신경망이라는 용어는 보통 이러한 함수들의 ''모임''에 대한 정의를 의미하며, 이 모임의 구성원들은 식의 인자를 변경하거나, 연결 가중치를 조정하거나, 뉴런의 수나 연결 정도와 같은 구조적 세부 사항을 변경함으로써 얻어진다.

3. 1. 인공 뉴런

인공 신경망(ANN)은 생물학적 뉴런에서 개념적으로 파생된 인공 뉴런으로 구성된다. 각 인공 뉴런은 입력을 가지며 여러 다른 뉴런으로 보낼 수 있는 단일 출력을 생성한다.^{[en-113]journal Application of Artificial Intelligence to the Management of Urological Cancer} 입력은 이미지나 문서와 같은 외부 데이터 샘플의 특징 값일 수도 있고 다른 뉴런의 출력일 수도 있다. 신경망의 최종 ''출력 뉴런''의 출력은 이미지에서 객체를 인식하는 것과 같은 작업을 수행한다.

뉴런의 출력을 찾기 위해 입력에서 뉴런으로의 ''연결''의 ''가중치''로 가중치를 부여한 모든 입력의 가중 합계를 구한다. 이 합계에 ''편향'' 항을 추가한다.^{[en-114]journal An artificial neural network approach to rainfall-runoff modelling} 이 가중 합계를 때로는 ''활성화''라고 한다. 이 가중 합계는 (일반적으로 비선형) 활성화 함수를 통과하여 출력을 생성한다. 초기 입력은 이미지 및 문서와 같은 외부 데이터이다. 최종 출력은 이미지에서 객체를 인식하는 것과 같은 작업을 수행한다.^{[en-115]웹사이트 The Machine Learning Dictionary 2009-11-04}

신경망에서 각 인공 신경은 선형 변환을 수행한 후 비선형 함수를 통과하는데, 이것을 활성화 함수라고 한다. 다양한 종류가 있으며, 자세한 내용은 활성화 함수를 참조한다.

3. 2. 망 함수

뉴런은 특히 딥 러닝에서 일반적으로 여러 계층으로 구성된다. 한 계층의 뉴런은 바로 앞 계층과 바로 다음 계층의 뉴런에만 연결된다. 외부 데이터를 수신하는 계층을 '입력 계층'이라고 한다. 최종 결과를 생성하는 계층은 '출력 계층'이다. 그 사이에는 0개 이상의 '숨겨진 계층'이 있다. 단일 계층 및 비계층 네트워크도 사용된다. 두 계층 사이에는 여러 연결 패턴이 가능하다. 한 계층의 모든 뉴런이 다음 계층의 모든 뉴런에 연결되는 '완전 연결'이 될 수 있다. 한 계층의 뉴런 그룹이 다음 계층의 단일 뉴런에 연결되어 해당 계층의 뉴런 수를 줄이는 '풀링'이 될 수도 있다. 이러한 연결만 있는 뉴런은 유향 비순환 그래프를 형성하며 '피드포워드 네트워크'라고 한다.^{[en-117]book Simulation Neuronaler Netze Addison-Wesley} 또는 동일하거나 이전 계층의 뉴런 간의 연결을 허용하는 네트워크를 '순환 네트워크'라고 한다.^{[en-118]journal Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction 2019-08-21}

단어 '인공신경망'에서 ''망''은 각 시스템에 있는 여러 층의 뉴런 간의 연결을 의미한다. 예를 들어 세 층이 있는 시스템이 있다면, 첫 번째 층은 시냅스를 통해 두 번째 층의 뉴런들로 데이터를 보내는 입력 뉴런들이 있고, 더 많은 시냅스를 통해 세 번째 층의 출력 뉴런으로 신호를 보내는 식이다. 시스템이 더 복잡해질수록 뉴런 층의 수도 더 많아지고, 그 층 안에 있는 입력 뉴런과 출력 뉴런들의 수도 많아질 것이다. 이 시냅스들은 계산 과정에서 데이터 값을 조절하는 가중치 값을 저장한다.

인공신경망은 보통 세 가지의 인자를 이용해 정의된다.

# 다른 층의 뉴런들 사이의 연결 패턴

# 연결의 가중치를 갱신하는 학습 과정

# 뉴런의 가중 입력을 활성화도 출력으로 바꿔주는 활성화 함수

수학적으로, 뉴런의 망 함수

\textstyle f(x)

는 다른 함수

\textstyle g_i(x)

들의 합성으로 정의되고, 이 함수들 또한 다른 함수들의 합성으로 정의될 수 있다. 이 함수는 화살표가 변수들 사이의 의존 관계를 나타내는 망 구조로써 편리하게 나타낼 수 있다. 자주 쓰이는 종류의 합성으로는 ''비선형 가중 합''이 있는데, 쌍곡선 함수와 같은 미리 정의된 함수

\textstyle K

(주로 활성화 함수라 불림^{[ko-26]웹인용 The Machine Learning Dictionary 2015-04-28})가 있을 때

\textstyle f (x) = K \left(\sum_i w_i g_i(x)\right)

로 나타내어지는 함수를 뜻한다. 이하 설명의 편리함을 위해 함수

\textstyle g_i

들의 모임을 간단히 벡터

\textstyle g = (g_1, g_2, \ldots, g_n)

로 취급하자.

이 그림은 변수들 사이의 의존 관계를 화살표로 나타내는 망 구조로

\textstyle f

를 분해해 나타낸 것이다. 이 그림은 두 가지 관점으로 해석할 수 있다.

첫 번째 관점은 함수로써 바라보는 것이다. 입력값

\textstyle x

가 3차원 벡터

\textstyle h

로 변환된 다음, 2차원 벡터

\textstyle g

로 변환되고 최종적으로 출력값

\textstyle f

으로 변환된다. 이 관점은 최적화에 대해 이야기할 때 제일 흔하게 접할 수 있다.

두 번째 관점은 확률론적으로 바라보는 것이다. 확률변수

\textstyle F = f(G)

는 확률변수

\textstyle G = g(H)

에 의존하고, 이것은

\textstyle H=h(X)

에 의존하고, 또 이것은 확률변수

\textstyle X

에 의존한다. 이 관점은 그래프 모형에 대해 이야기할 때 제일 흔하게 접할 수 있다.

이 두 관점은 대체로 같다고 볼 수 있다. 두 경우 모두 이 망 구조에 대해 각각의 층의 구성 요소는 서로 독립적이다 (

\textstyle g

의 요소들은

\textstyle h

로부터의 입력이 주어졌을 때 서로 독립이다). 이것은 구현할 때 어느 정도의 병렬화를 가능하게 해 준다.

앞의 예와 같은 신경망은 의존 관계를 나타내는 화살표가 한 방향으로만 나아가는 유향 비순환 그래프이기 때문에 전향 신경망이라고 불린다. 순환이 있는 망은 재귀 신경망이라고 불린다. 재귀 신경망은 그림 위쪽과 같이

\textstyle f

가 자기 자신에 의존적인 것으로 나타내어지지만, 시간적 의존 관계는 보이지 않는다.

3. 3. 학습

학습은 표본 관찰을 고려하여 작업을 더 잘 처리하도록 네트워크를 조정하는 것이다. 학습에는 결과의 정확도를 향상시키기 위해 네트워크의 가중치(및 선택적 임계값)를 조정하는 작업이 포함된다. 이는 관찰된 오류를 최소화함으로써 수행된다. 추가 관찰을 검토해도 오류율이 유용하게 감소하지 않을 때 학습이 완료된다. 학습 후에도 일반적으로 오류율은 0에 도달하지 않는다. 학습 후 오류율이 너무 높으면 일반적으로 네트워크를 재설계해야 한다. 실제로 이는 학습 중에 주기적으로 평가되는 비용 함수를 정의하여 수행된다. 해당 출력 값이 계속 감소하는 한 학습은 계속된다. 비용은 종종 근사치로만 구할 수 있는 통계로 정의된다. 출력은 실제로 숫자이므로 오류가 낮을 때 출력(거의 확실히 고양이)과 정답(고양이) 사이의 차이는 작다. 학습은 관찰 전체에서 차이의 총계를 줄이려고 시도한다. 대부분의 학습 모델은 최적화 이론 및 통계적 추정의 직접적인 응용으로 볼 수 있다.

신경망 학습은 최적화 문제로 정식화할 수 있다.

현재 가장 널리 사용되는 방법은 경사법의 일종인 경사 하강법을 연쇄 법칙과 함께 사용하는 역전파이다.

경사법에 의존하지 않는 학습법(gradient-free method)은 역사적으로도 많이 사용되었으며, 현재도 연구가 진행되고 있다.^{[ko-1]저널 A Logical Calculus of Ideas Immanent in Nervous Activity}

신경망이 관심을 받는 제일 큰 요소는 바로 ''학습''이 가능하다는 것이다. 해결해야 되는 주어진 '''과제'''와 함수

\textstyle F

들의 '''모임'''이 주어졌을 때, 학습을 한다는 것은 과제를 어떤 '''최적화'''된 방법으로 푸는

\textstyle f^{*} \in F

를 '''관측값'''들을 이용해 푼다는 것이다.

학습을 한다는 것은 최적해

\textstyle f^*

에 대해

\textstyle C(f^*) \leq C(f)

\textstyle \forall f \in F

인 비용 함수

\textstyle C : F \rightarrow \mathbb{R}

를 정의하는 것을 수반한다. 다시 말해, 정의된 함수

\textstyle C

에 대해, 최적해의 비용보다 더 적은 비용을 필요로 하는 해답은 존재하지 않는다는 것이다. (수학적 최적화 참고.)

비용 함수

\textstyle C

는 특정한 해답이 해결할 문제의 최적해에 대해 얼마나 떨어져 있는지에 대한 측도이기 때문에 학습에 있어 중요한 개념이다. 학습 알고리즘은 해답들의 모임

\textstyle F

에서 최소 비용을 필요로 하는 함수를 찾아나가는 식으로 작동한다.

해답이 어떤 데이터에 의존적인 경우, 비용은 ''관측값에 대한 함수''가 되어야 하며, 그렇지 않을 경우에는 데이터와 관련된 어떤 것도 모델링할 수 없게 된다. 많은 경우 비용은 근사될수만 있는 통계로 주어진다. 간단한 예로, 어떤 분포

\textstyle \mathcal{D}

에서 뽑아낸 데이터 쌍

\textstyle (x,y)

에 대해 비용

\textstyle C=E\left[(f(x) - y)^2\right]

을 최소화하는 모델

\textstyle f

을 찾는 문제를 생각해 보자. 실용적으로는 분포

\textstyle \mathcal{D}

에서 유한한

\textstyle N

개의 샘플만을 뽑아낼 수 있으므로, 이 예의 경우

\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2

, 즉 전체 데이터 집합이 아니라 데이터의 샘플에 대한 비용만 최소화될 수 있을 것이다.

\textstyle N

이 매우 크거나 무한하다면, 새 예제가 주어질 때마다 비용이 부분적으로 최소화되는 온라인 알고리즘을 사용해야 한다.

\textstyle \mathcal{D}

가 고정되어 있을 때 직결 기계 학습을 종종 사용하기는 하지만, 분포가 시간에 따라 서서히 변할 때 사용하는 것이 더 유용하다. 신경망을 사용할 때에는, 직결 기계 학습을 유한한 자료 집합에 대해 자주 사용하기도 한다.

http://ktrmnm.github.io/blog/2018/03/04/201803-nn-bcd/

3. 3. 1. 비용 함수 고르기

비용 함수를 임시방편으로 정의할 수도 있지만, 함수의 바람직한 속성(볼록성)이나 모델에서 발생하기 때문에 선택되기도 한다. 예를 들어 확률 모델에서 모델의 사후 확률이 역비용으로 사용될 수 있다. 임의의 비용 함수를 그때그때 정의할 수도 있지만, 일반적인 경우 (볼록성과 같은) 원하는 성질을 가지거나 (확률론적 공식화에서 모델의 사후 확률을 비용의 역으로 생각하는 것과 같이) 문제의 특정한 공식화에서 자연스레 나타나는 이유로 특정한 비용 함수를 사용한다. 결과적으로 비용 함수는 원하는 과제에 따라 달라진다. 학습 과제는 학습 패러다임에 따라 세 분류로 묶을 수 있다.

3. 4. 학습 패러다임

기계 학습은 일반적으로 지도 학습,^{[en-127]영어 book Introduction to machine learning Wolfram Media 2023-03-22} 비지도 학습,^{[en-128]영어 book Introduction to machine learning Wolfram Media 2023-03-22} 그리고 강화 학습^{[en-129]book Introduction to Machine Learning Wolfram Media Inc 2022-07-28}의 세 가지 주요 학습 패러다임으로 나뉜다. 각 패러다임은 특정 학습 과제에 해당한다. 학습 패러다임에는 크게 지도 학습, 자율 학습, 준 지도 학습이 있으며, 각각이 특정한 추상적인 학습 과제에 대응된다.

3. 4. 1. 지도 학습

지도 학습은 쌍으로 이루어진 입력과 원하는 출력 세트를 사용한다. 학습 과제는 각 입력에 대해 원하는 출력을 생성하는 것이다. 이 경우, 비용 함수는 잘못된 추론을 제거하는 것과 관련이 있다.^{[en-130]journal Metaheuristic design of feedforward neural networks: A review of two decades of research 2017-04-01} 일반적으로 사용되는 비용은 평균 제곱 오차이며, 이는 네트워크의 출력과 원하는 출력 사이의 평균 제곱 오차를 최소화하려고 한다. 지도 학습에 적합한 작업은 패턴 인식(분류라고도 함)과 회귀 분석(함수 근사라고도 함)이다. 지도 학습은 순차 데이터에도 적용할 수 있다(예: 필기, 음성 및 제스처 인식의 경우). 이는 지금까지 얻은 솔루션의 품질에 대한 지속적인 피드백을 제공하는 함수 형태의 "교사"와 함께 학습하는 것으로 생각할 수 있다.

지도 학습에서는 예제

\textstyle (x, y), x \in X, y \in Y

들의 집합이 주어졌을 때, 가능한 함수

\textstyle f : X \rightarrow Y

들의 목록 중 예제에 제일 적합한 함수를 고르는 것을 목표로 한다. 즉, 주어진 데이터로부터 함수를 ''추론''하는 것이다. 이 때 비용 함수는 주어진 데이터가 추론한 함수와 얼마나 어긋나느냐에 따라 달려 있고, 문제에 대한 사전 지식을 암시적으로 포함하고 있다.

흔히 모든 예제쌍에 대한 망의 출력

\textstyle f(x)

과 목표값

\textstyle y

의 평균 제곱 오차를 최소화하는 평균 제곱 오차를 비용 함수로 사용한다. 이 비용을 최소화하기 위해 다층 퍼셉트론이라 불리는 신경망의 한 분류에 경사 하강법을 이용한다면, 이것은 신경망을 학습하기 위해 널리 쓰이는 오차역전파법이 된다.

지도 학습 패러다임에 해당하는 과제에는 패턴 인식 (또는 분류)와 회귀분석 (또는 함수 근사)가 있다. 지도 학습은 음성인식이나 모션 인식 분야에 나타나는 순차적 데이터에도 적용시킬 수 있다. 이것은 현재까지 얻어진 답의 품질에 대해 계속해서 피드백을 주는 함수의 형태로서의 "선생님"과 같이 배우는 것으로 생각할 수 있다.

3. 4. 2. 자율 학습

비지도 학습에서는 입력 데이터와 비용 함수가 함께 주어진다. 이때 비용 함수는 데이터

\textstyle x

와 네트워크 출력의 일부 함수이다. 비용 함수는 작업과 모델의 암시적 속성, 매개변수, 관찰된 변수와 같은 '선험적' 가정에 따라 달라진다. 간단한 예로,

\textstyle a

가 상수이고 비용

\textstyle C=E[(x - f(x))^2]

인 모델

\textstyle f(x) = a

를 고려해 볼 수 있다. 이 비용을 최소화하면 데이터의 평균과 같은

\textstyle a

값이 나온다. 비용 함수는 훨씬 더 복잡할 수 있으며, 그 형태는 응용 프로그램에 따라 다르다. 예를 들어, 데이터 압축에서는

\textstyle x

와

\textstyle f(x)

사이의 상호 정보량과 관련될 수 있는 반면, 통계 모델링에서는 데이터가 주어졌을 때 모델의 사후 확률과 관련될 수 있다. (이러한 예에서 두 수량 모두 최소화보다는 최대화됨). 비지도 학습의 패러다임에 속하는 작업은 일반적으로 근사 문제이다. 응용 분야에는 데이터 클러스터링, 통계 분포 추정, 데이터 압축 및 베이즈 스팸 필터링이 포함된다.

자율 학습에서는 데이터

\textstyle x

가 주어졌을 때 데이터

\textstyle x

와 망의 출력

\textstyle f

에 대한 임의의 비용 함수를 최소화한다. 비용 함수는 모델링할 과제와 모델, 모델의 변수, 관측된 변수에 대한 암시적인 성질과 같은 선험적 가정에 따라 결정된다.

간단한 예로, 비용 함수

\textstyle C=E[(x - f(x))^2]

가 주어져 있고

\textstyle a

가 상수일 때 모델

\textstyle f(x) = a

를 생각해 볼 수 있다. 비용을 최소화하면 데이터의 평균인

\textstyle a

값이 나올 것이다. 비용 함수는 이것보다 훨씬 더 복잡해질 수 있으며, 그 형태는 어디에 사용되느냐에 따라 달려 있다. 예를 들어, 압축과 관련된 과제에서는

\textstyle x

와

\textstyle f(x)

사이의 상호 정보량과 관련 있는 비용 함수를 사용할 수 있고, 통계 모델링에서는 데이터가 주어졌을 때 모델의 사후 확률과 관련지을 수 있을 것이다. (두 경우 모두 이 값을 최소화하는 게 아니라 최대화해야 한다. 이론적으로는 이 값의 역수를 비용 함수로 사용하면 된다.)

자율 학습 패러다임에 속하는 과제는 일반적으로 근사와 관련된 문제들이다. 클러스터링, 확률 분포의 예측, 데이터 압축, 베이지언 스팸 필터링 등에 응용할 수 있다.

3. 4. 3. 준 지도 학습

비디오 게임과 같은 응용 분야에서, 행위자는 일련의 행동을 취하고, 각 행동 후 환경으로부터 일반적으로 예측할 수 없는 응답을 받는다. 목표는 게임에서 이기는 것, 즉 가장 긍정적인(가장 낮은 비용) 응답을 생성하는 것이다. 강화 학습에서 목표는 장기적인(예상 누적) 비용을 최소화하는 행동을 수행하도록 네트워크(정책을 고안)에 가중치를 부여하는 것이다. 각 시점에서 에이전트는 행동을 수행하고 환경은 어떤 (일반적으로 알려지지 않은) 규칙에 따라 관찰과 즉각적인 비용을 생성한다. 규칙과 장기적인 비용은 일반적으로 추정만 가능하다. 어떤 시점에서든 에이전트는 비용을 발견하기 위해 새로운 행동을 탐색할지 또는 더 빨리 진행하기 위해 이전 학습을 활용할지 결정한다.

형식적으로 환경은 상태

\textstyle {s_1,...,s_n}\in S

및 동작

\textstyle {a_1,...,a_m} \in A

를 갖는 마르코프 결정 프로세스(MDP)로 모델링된다. 상태 전환이 알려져 있지 않기 때문에 확률 분포가 대신 사용된다. 즉각적인 비용 분포

\textstyle P(c_t|s_t)

, 관찰 분포

\textstyle P(x_t|s_t)

및 전환 분포

\textstyle P(s_{t+1}|s_t, a_t)

인 반면 정책은 관찰이 주어졌을 때 행동에 대한 조건부 분포로 정의된다. 이 둘을 합하면 마르코프 연쇄(MC)가 정의된다. 목표는 최저 비용 MC를 발견하는 것이다.

ANN은 이러한 응용 프로그램에서 학습 구성 요소 역할을 한다.^{[en-131]conference Genetic reinforcement learning for neural networks IEEE 1991-07-01}^{[en-132]journal Process control via artificial neural networks and reinforcement learning} ANN과 결합된 동적 프로그래밍(신경동적 프로그래밍 제공)^{[en-133]book Neuro-dynamic programming Athena Scientific 2017-06-17}은 차량 경로 지정,^{[en-134]journal Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands} 비디오 게임, 천연 자원 관리^{[en-135]conference Neuro-dynamic programming for the efficient management of reservoir networks Modelling and Simulation Society of Australia and New Zealand 2013-07-29}^{[en-136]conference Genetic algorithms and neuro-dynamic programming: application to water supply networks IEEE} 및 의학^{[en-137]book Optimization in Medicine}과 관련된 문제에 적용되었다. 이는 ANN이 제어 문제의 해를 수치적으로 근사화하기 위해 이산화 격자 밀도를 줄이더라도 정확도 손실을 완화할 수 있기 때문이다. 강화 학습의 패러다임에 속하는 작업은 제어 문제, 게임 및 기타 순차적 의사 결정 작업이다.

준 지도 학습에서 데이터

\textstyle x

는 주어지지 않고, 대신 행위자가 환경과 상호 작용을 함으로써 생성된다. 시간의 매 순간

\textstyle t

마다, 행위자는 행동

\textstyle y_t

를 취하고 환경에서

\textstyle x_t

와 순간적인 비용

\textstyle c_t

가 알려지지 않은 특정한 법칙에 따라 생성되어 관측된다. 이 때 목표는 예상되는 장기적 (누적) 비용을 최소화하는 특정한 행동을 고르는 ''정책''을 찾는 것이다. 환경의 법칙과 각각의 정책에 따른 장기적 비용은 보통 모르지만, 예측할 수는 있다.

형식적으로 말해 환경은 상태

\textstyle {s_1,...,s_n}\in S

와 행동

\textstyle {a_1,...,a_m} \in A

이 순간적인 비용의 분포

\textstyle P(c_t|s_t)

, 관측 분포

\textstyle P(x_t|s_t)

, 상태 천이 분포

\textstyle P(s_{t+1}|s_t, a_t)

와 함께 주어진 마르코프 결정 프로세스로 모델링되며, 정책은 관측값들이 주어졌을 때 행동에 대한 조건부 분포로 정의된다. 이 두가지는 함께 마르코프 연쇄를 이룬다. 목표는 비용을 최소화하는 정책, 즉, 비용이 최소인 마르코프 연쇄를 찾는 것이다.

인공신경망은 전체적인 알고리즘의 일부로서 준 지도 학습에 자주 이용된다.^{[ko-27]콘퍼런스 Genetic reinforcement learning for neural networks IEEE 2012-07-29}^{[ko-28]저널 Process control via artificial neural networks and reinforcement learning} 동적 계획법은 베르트세카스(Bertsekas)와 치치클리스(Tsitsiklis)^{[ko-29]서적 Neuro-dynamic programming Athena Scientific}에 의해 인공신경망과 결부되었으며, 차량 경로 설정 문제,^{[ko-30]저널 Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands} 천연 자원 관리^{[ko-31]콘퍼런스 Neuro-dynamic programming for the efficient management of reservoir networks Modelling and Simulation Society of Australia and New Zealand 2012-07-29}^{[ko-32]콘퍼런스 Genetic algorithms and neuro-dynamic programming: application to water supply networks IEEE 2012-07-29}, 의학^{[ko-33]저널 Neuro-dynamic programming for fractionated radiotherapy planning} 등에 관련된 다차원 비선형적 문제에 적용되었는데, 원래 제어 문제의 해답을 수치적으로 근사하기 위한 이산화 격자의 간격을 넓혀서 생기는 정확도 감소 문제를 인공신경망이 완화시킬수 있기 때문이다.

준 지도 학습 패러다임에 속하는 과제에는 제어 문제, 게임, 순차적 결정 문제 등이 있다.

3. 5. 학습 알고리즘

신경 진화(Neuroevolution)는 진화 연산(evolutionary computation)을 사용하여 신경망 토폴로지 및 가중치를 생성할 수 있다. 이는 정교한 경사 하강법 접근 방식과 경쟁력이 있다.^{[en-141]arXiv Evolution Strategies as a Scalable Alternative to Reinforcement Learning 2017-09-07}^{[en-142]arXiv Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning 2018-04-20} 신경 진화의 한 가지 장점은 "막다른 골목"에 갇힐 가능성이 적다는 것이다.^{[en-143]뉴스 Artificial intelligence can 'evolve' to solve problems 2018-02-07}

베이즈 프레임워크에서는 허용된 모델 집합에 대한 분포를 선택하여 비용을 최소화한다. 진화적 방법(Evolutionary methods), 유전자 발현 프로그래밍(gene expression programming), 시뮬레이티드 어닐링(simulated annealing), 기댓값 최대화(expectation–maximization), 비모수적 방법(non-parametric methods) 및 입자 군집 최적화(particle swarm optimization)는 다른 학습 알고리즘이다. 수렴적 재귀는 소뇌 모델 조음 제어기(cerebellar model articulation controller)(CMAC) 신경망을 위한 학습 알고리즘이다.

실질적으로 인공신경망을 학습시키는 것은 비용을 최소화하는 모델을 허용된 모델의 집합에서 고르는 것이다. (베이즈 확률론에서는 허용된 모델의 집합 상에서 모델의 분포를 결정짓는 것이다.) 인공신경망을 학습시키는 데에는 많은 알고리즘이 존재하고, 그 중 대부분은 최적화 이론과 추정 이론을 접목해 응용한 것으로 볼 수 있다.

인공신경망을 학습할 때 사용하는 대부분의 알고리즘은 역전파 기법을 이용해 실제 기울기를 계산하는 경사 하강법을 사용한다. 이는 간단하게 비용 함수를 망의 인자에 대해 미분한 다음 인자를 기울기 방향으로 조금씩 바꾸는 식으로 할 수 있다.

유전 알고리즘,^{[ko-34]콘퍼런스 A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management IFAC 2011-12-30} 유전자 수식 프로그래밍,^{[ko-35]웹인용 Designing Neural Networks Using Gene Expression Programming In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag} 담금질 기법,^{[ko-36]콘퍼런스 An improved PSO-based ANN with simulated annealing technique Elsevier 2011-12-30} 기댓값 최대화 알고리즘, 비모수 통계, 군집 최적화^{[ko-37]콘퍼런스 A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network Springer 2012-01-01}와 같은 방법들이 신경망을 학습시키는데 주로 이용된다.

3. 5. 1. 학습률

학습률은 모델이 각 관찰에서 오류를 조정하기 위해 수정하는 단계의 크기를 나타낸다. 학습률이 높으면 훈련 시간은 단축되지만 최종 정확도는 낮아질 수 있으며, 학습률이 낮으면 시간이 더 오래 걸리지만 정확도가 높아질 가능성이 있다. 퀵프롭(Quickprop)과 같은 최적화는 주로 오류 최소화를 가속화하는 데 초점을 맞추고, 다른 개선 사항은 신뢰성을 높이는 데 주력한다. 네트워크 내부의 진동(oscillation)을 피하고 수렴 속도를 높이기 위해 연결 가중치 교번과 같은 개선 사항은 적응적 학습률(adaptive learning rate)을 사용하여 적절하게 증가하거나 감소시킨다. 모멘텀은 가중치 조정이 이전 변경에 어느 정도 의존하도록 기울기와 이전 변경 사이의 균형을 가중하는 개념이다. 0에 가까운 모멘텀은 기울기를 강조하고, 1에 가까운 값은 마지막 변경을 강조한다.

3. 5. 2. 비용 함수

비용 함수를 임시방편으로 정의할 수도 있지만, 종종 함수의 바람직한 속성(예: 볼록성)이나 모델에서 발생하기 때문에 선택된다(예: 확률 모델에서 모델의 사후 확률이 역비용으로 사용될 수 있음).

임의의 비용 함수를 그때그때 정의할 수도 있지만, 일반적인 경우 (볼록성과 같은) 원하는 성질을 가지거나 (확률론적 공식화에서 모델의 사후 확률을 비용의 역으로 생각하는 것과 같이) 문제의 특정한 공식화에서 자연스레 나타난다던지 하는 이유로 특정한 비용 함수를 사용한다. 결과적으로 비용 함수는 원하는 과제에 따라 달라진다. 학습 과제는 학습 패러다임에 따라 세 분류로 묶을 수 있다.

3. 5. 3. 역전파

역전파는 1673년 고트프리트 빌헬름 라이프니츠가 유도한 연쇄 법칙의 효율적인 응용으로, 미분 가능한 노드 네트워크에 적용된다.^{[en-37]영어 서적 The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) Open court publishing Company 1920} "오차 역전파"라는 용어는 실제로 1962년 로젠블랫이 도입했지만,^{[en-22]서적 Principles of Neurodynamics Spartan, New York} 그는 이를 구현하는 방법을 몰랐다. 하지만 헨리 J. 켈리는 1960년 제어 이론 맥락에서 역전파의 연속적인 전조를 가지고 있었다.^{[en-38]간행물 Gradient theory of optimal flight paths} 1970년, 세포 린나이마는 그의 석사 논문에서 역전파의 현대적인 형태를 발표했다.^{[en-39]Masters The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors University of Helsinki}^{[en-40]간행물 Taylor expansion of the accumulated rounding error}^{[en-26]arXiv Annotated History of Modern AI and Deep Learning 2022} G.M. 오스트롭스키 등이 1971년에 이를 재발표했다.^{[en-41]기타 On the computation of derivatives}^{[en-45]웹사이트 Who Invented Backpropagation? IDSIA, Switzerland 2014-10-25} 폴 워보스는 1982년에 역전파를 신경망에 적용했다.^{[en-42]서적 System modeling and optimization Springer}^{[en-43]영어 서적 Talking Nets: An Oral History of Neural Networks The MIT Press 2000} 1986년, 데이비드 E. 루멜하트 등이 역전파를 대중화했지만 원본 논문을 인용하지는 않았다.^{[en-46]영어 간행물 Learning representations by back-propagating errors 1986-10}

역전파는 학습 중에 발견된 각 오류를 보정하기 위해 연결 가중치를 조정하는 데 사용되는 방법이다. 오류량은 연결들 사이에서 효과적으로 분할된다. 기술적으로, 역전파는 가중치에 대한 주어진 상태와 관련된 비용 함수의 기울기(미분)를 계산한다. 가중치 업데이트는 확률적 경사 하강법 또는 ''극단 학습 기계'',^{[en-122]journal Extreme learning machine: theory and applications} "무전파" 네트워크,^{[en-123]journal The no-prop algorithm: A new learning algorithm for multilayer neural networks} 역추적 없는 훈련,^{[en-124]arXiv Training recurrent networks without backtracking} "무게 없는" 네트워크,^{[en-125]journal A Practical Guide to Training Restricted Boltzmann Machines 2017-06-27}^{[en-126]간행물 ESANN 2009} 및 비연결주의 신경망과 같은 다른 방법을 통해 수행할 수 있다.

신경망 학습은 최적화 문제로 정식화할 수 있다. 현재 가장 널리 사용되는 방법은 경사법의 일종인 경사 하강법을 연쇄 법칙과 함께 사용하는 역전파이다.

경사법에 의존하지 않는 학습법(gradient-free method)은 역사적으로도 많이 사용되었으며, 현재도 연구가 진행되고 있다.

4. 인공신경망의 사용 방법

인공신경망을 사용하려면 해당 특성에 대한 이해가 필요하다. 모델 선택은 데이터 표현 및 응용 프로그램에 따라 달라진다. 모델 매개변수에는 네트워크 계층의 수, 유형 및 연결성뿐만 아니라 각 계층의 크기 및 연결 유형(전체, 풀링 등)이 포함된다. 지나치게 복잡한 모델은 학습 속도가 느리다.

학습 알고리즘 사이에는 수많은 상충 관계가 존재한다. 거의 모든 알고리즘은 특정 데이터 세트에서 훈련하기 위한 올바른 하이퍼파라미터를 사용하면 잘 작동한다.^{[en-162]논문 Auto-keras: An efficient neural architecture search system ACM 2019-08-21} 그러나 보이지 않는 데이터에 대한 훈련을 위해 알고리즘을 선택하고 조정하려면 상당한 실험이 필요하다. 모델, 비용 함수 및 학습 알고리즘이 적절하게 선택되면 결과 ANN이 로버스트해질 수 있다.

신경망 구조 탐색(NAS)은 기계 학습을 사용하여 ANN 설계를 자동화한다. NAS에 대한 다양한 접근 방식은 수동으로 설계된 시스템과 비교할 수 있는 네트워크를 설계했다. 기본적인 검색 알고리즘은 후보 모델을 제안하고 데이터 세트에 대해 평가하고 결과를 NAS 네트워크를 가르치는 피드백으로 사용하는 것이다.^{[en-163]arXiv Hyperparameter Search in Machine Learning 2015} 사용 가능한 시스템에는 AutoML 및 AutoKeras^{[en-164]서적 Handbook of Applied Mathematics Springer US 1990}가 있다. scikit-learn 라이브러리는 처음부터 딥 네트워크를 구축하는 데 도움이 되는 기능을 제공한다. 그런 다음 텐서플로(TensorFlow) 또는 케라스(Keras)로 딥 네트워크를 구현할 수 있다.

하이퍼파라미터는 각 계층의 뉴런 수, 학습률, 스텝, 스트라이드, 깊이, 수용 영역 및 패딩(CNN의 경우) 등과 같은 사항을 관리하며 설계의 일부로도 정의해야 한다(학습되지 않음).^{[en-165]서적 A Concise Guide to Market Research Springer Berlin Heidelberg 2023-03-20}

인공신경망의 가장 큰 장점은 관찰된 데이터로부터 학습하여 원하는 근사 함수를 만들 수 있다는 것이다. 그러나 사용하려는 신경망의 기본 이론과 예측하려는 데이터의 근본적인 이해가 매우 중요하다. 인공신경망의 사용함에 있어서 세 가지 큰 부분으로 나눌 수 있다.

모델의 선택: 예측하려는 데이터를 어떤 방법으로 표현하는지에 대한 선택이다. 지나치게 복잡한 모델은 학습 과정에서 Overfitting 문제가 발생할 수 있다.
학습 알고리즘: 학습 알고리즘 사이에 많은 장단점이 있다. 대부분의 알고리즘은 hyperparameters와 함께 고정된 데이터 집단에서 잘 동작한다. 하지만 알려지지 않은 데이터의 예측의 경우 대부분 많은 시간과 연구가 필요하다.
견고함: 모델과 알고리즘이 적절하게 선택되었다면 인공신경망의 결과는 매우 높은 예측 값을 가진 것이다.

인공신경망의 경우 자연스럽게 많은 데이터를 가지고 online learning 방식을 사용한다. 이 방식은 병렬화가 쉽게 가능하도록 주로 지역적 의존성만 가지고 있다.

5. 적용

인공 신경망은 비선형 프로세스를 재현하고 모델링하는 능력 때문에 여러 분야에서 응용되고 있다. 여기에는 함수 근사(Function approximation) 또는 회귀 분석(regression analysis) (시계열 예측, 적합도 근사(fitness approximation) 및 모델링 포함), 데이터 처리(Data processing) (필터링, 클러스터링, 블라인드 소스 분리(blind source separation) 및 압축 포함), 비선형 시스템 식별(Nonlinear system identification) 및 제어 (차량 제어, 궤적 예측, 적응 제어(adaptive control), 공정 제어(process control) 및 천연 자원 관리(natural resource management) 포함) 등이 있다. 또한 패턴 인식(Pattern recognition) (레이더 시스템, 얼굴 인식 시스템(Facial recognition system), 신호 분류, 이상 감지(novelty detection), 3차원 재구성(3D reconstruction), 객체 인식 및 순차적 의사 결정 포함)과 시퀀스 인식 (제스처 인식(Gesture recognition), 음성 인식(Speech recognition), 필기 인식(handwriting recognition) 및 인쇄된 텍스트 인식 포함)에도 활용된다. 센서 데이터 분석 (이미지 분석(image analysis) 포함), 로봇 공학(Robotics) (조작기 및 보철(prosthesis) 지시 포함), 데이터 마이닝(Data mining) (데이터베이스의 지식 발견(knowledge discovery in databases) 포함), 금융 (특정 장기 재정 예측 및 인공 금융 시장(artificial financial market)을 위한 사전적(ex-ante) 모델과 같은), 양자 화학(Quantum chemistry), 일반 게임 플레이(General game playing), 생성형 인공지능(Generative AI), 데이터 시각화(Data visualization), 기계 번역(Machine translation), 소셜 네트워크 필터링, 이메일 스팸(E-mail spam) 필터링 및 의료 진단(Medical diagnosis)에도 사용된다.

인공 신경망은 여러 유형의 암을 진단하고 세포 모양 정보만을 사용하여 침습성이 높은 암세포주와 침습성이 낮은 세포주를 구별하는 데 사용되었다. 자연재해에 따른 사회 기반 시설의 신뢰성 분석을 가속화하고 기초 침하를 예측하는 데도 사용되었으며, 강우 유출을 모델링하여 홍수를 완화하는 데도 유용할 수 있다. 지구과학에서 블랙박스 모델을 구축하는 데 사용되는데, 수문학(hydrology), 해양 모델링 및 해안 공학(coastal engineering), 그리고 지형학(geomorphology)이 그 예이다. 컴퓨터 보안(Computer security)에서는 합법적인 활동과 악의적인 활동을 구별하기 위한 목적으로 사용된다. 예를 들어, 머신러닝은 안드로이드 악성 코드를 분류하고, 위협 행위자에 속하는 도메인을 식별하고, 보안 위험을 초래하는 URL을 감지하는 데 사용되었다. 침투 테스트, 봇넷 감지, 신용 카드 사기 및 네트워크 침입을 위해 설계된 인공 신경망 시스템에 대한 연구가 진행 중이다.

물리학에서는 편미분 방정식(partial differential equation)을 풀고 다체 개방 양자 시스템(open quantum system)의 속성을 시뮬레이션하는 도구로 제안되었다. 뇌 연구에서는 생물학적 뉴런 모델(biological neuron models)의 단기적 행동, 개별 뉴런 간의 상호 작용에서 발생하는 신경 회로의 역학, 그리고 완전한 하위 시스템을 나타내는 추상적인 신경 모듈에서 행동이 어떻게 발생할 수 있는지를 연구했다. 연구에서는 개별 뉴런에서 시스템 수준까지의 신경계의 장단기 가소성과 학습 및 기억과의 관계를 고려했다.

객체 인식 학습을 받은 인공 신경망을 사용하여 사진에서 사용자의 관심사 프로필을 생성할 수 있다.

기존의 응용 분야 외에도 인공 신경망은 재료 과학과 같은 학제 간 연구에서 점점 더 많이 활용되고 있다. 예를 들어, 그래프 신경망(GNN)은 결정체의 총 에너지를 효율적으로 예측하여 새로운 안정적인 재료 발견을 위한 딥 러닝을 확장하는 데 능력을 입증했다. 인공신경망의 활용은 데이터 관찰로부터 원하는 함수를 추론하는데 사용할 수 있다. 이것은 매우 복잡한 데이터를 사용하거나 사람의 주관적인 판단이 필요한 부분에 매우 유용하게 사용될 수 있다.

5. 1. 실생활에서 적용

인공 신경망은 함수 추론, 회귀 분석, 시계열 예측, 근사 모델링 등에 사용될 수 있다. 또한 패턴 인식, 순서 인식, 순차 결정 같은 분류 알고리즘에도 활용된다. 데이터 처리 분야에서는 필터링, 클러스터링, 압축 등에 쓰이며, 로봇 제어 분야에서는 인공 기관의 움직임 조정, 컴퓨터 수치 제어 등에 사용된다.

인공신경망은 여러 암 진단에도 활용되었는데, HLDN이라는 인공 신경망 기반 폐암 검출 시스템은 암 진단의 정확성과 속도 향상을 이루었고 전립선암 진단에도 사용되었다.^{[ko-38]웹인용 Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data International Journal of Computer Applications} 이 시스템은 많은 환자의 데이터로부터 특정한 모델을 만들고, 이 모델과 개별 환자를 비교하여 진단한다. 모델은 다른 변수의 상관관계나 가정에 의존하지 않는다. 인공 신경망 모델은 임상 실험 방법보다 더 정확하게 동작했으며, 한 기관에서 훈련된 모델이 다른 기관에서도 결과를 예측할 수 있었다.

5. 2. 신경 네트워크와 신경 과학

이론 및 계산 신경과학은 이론적 분석과 생물학적 신경 시스템의 컴퓨터 모델링을 다루는 분야이다. 인공신경망이 인식 과정이나 행동에 깊이 관여하는 것과 같이 신경과학 분야와도 밀접하게 연관되어 있다. 이 분야의 목표는 생물학적 신경 시스템의 모델을 사용하여 생물학적 시스템이 어떻게 작동하는지 이해하는 것이다. 이를 위해 신경과학자들은 관측된 생물학적 프로세스와 생물학적 메커니즘 사이의 연관성을 규명하기 위해 신경 학습과 이론을 적용한다.

5. 3. 다양한 모델의 종류

다양한 모델은 추상화 단계에서 시스템의 특성에 따라 다르게 적용된다. 신경 세포와 신경 회로의 관계, 최종 시스템이 추상적 신경 모델에서 발생할 수 있는 상호작용, 단기 행동 모델 등 다양한 모델이 존재한다. 이러한 신경 시스템 모델들은 각각 신경 세포와 시스템 간의 상호 관계에 따라 달라진다.

5. 4. 경영학에서의 인공신경망

인공신경망(ANN)은 주식 시장 예측 및 신용 평가에 사용된다. 투자에서 인공신경망은 방대한 양의 금융 데이터를 처리하고 복잡한 패턴을 인식하며 주식 시장 동향을 예측하여 투자자와 위험 관리자가 정보에 입각한 결정을 내리는 데 도움을 줄 수 있다. 신용 평가에서 인공신경망은 데이터 기반의 개인화된 신용도 평가를 제공하여 부도 예측의 정확도를 높이고 대출 프로세스를 자동화한다. 인공신경망은 고품질 데이터와 세심한 조정이 필요하며, '블랙 박스' 특성으로 인해 해석에 어려움을 겪을 수 있다. 그럼에도 불구하고 지속적인 발전을 통해 인공신경망이 금융 분야에서 계속해서 중요한 역할을 수행하며 귀중한 통찰력을 제공하고 위험 관리 전략을 강화할 것으로 보인다. 인공신경망을 경영학에 응용하고자 하는 연구는 재무, 회계, 마케팅, 생산 등의 분야에서 다양하게 진행되어 왔다. 특히, 재무분야에 대한 응용연구는 매우 활발하게 진행되고 있는데 주가지수예측, 기업신용평가, 환율예측 등의 연구가 진행되고 있다.

6. 인공 신경망 소프트웨어

인공 신경망 소프트웨어는 시뮬레이션, 연구, 개발 분야에 많이 사용된다. 인공 신경망 소프트웨어는 생물학적 신경망 개념을 가져와서 여러 가지 시스템에 적용되고 있다.

6. 1. 시뮬레이션

인공 신경망 시뮬레이터는 생물학적 신경망이나 인공 신경망을 구현하는 프로그램으로, 보통 한 가지 이상의 신경망 종류를 제공한다. 대부분의 시뮬레이터들은 학습 방법을 데이터 시각화하는 기능을 제공한다.

연구 시뮬레이터는 전통적으로 가장 많이 사용되는 인공 신경망 시뮬레이터로, 신경망의 정확한 행동이나 특징을 시각화나 데이터로 이해하기 쉽게 만드는 것이 주된 목적이다.

데이터 분석 시뮬레이터는 실용적인 프로그램에 많이 사용되며, 데이터 마이닝이나 예측에 사용되고 항상 많은 전처리 과정을 거친다.

인공 신경망 교육 시뮬레이터는 기본적인 프로그래밍 지식 없이 인공 신경망을 사용해 볼 수 있는 프로그램이다. 작고 사용하기 쉬운 시뮬레이터는 간단한 전방 전달과 오차역전파법 알고리즘을 제공한다.

6. 2. 개발 환경

인공 신경망 개발 환경은 대부분 강력한 기능을 제공한다. 알고리즘 수정이 쉽고 다른 프로그램과 같이 사용하기 편하다. 어떤 프로그램은 좋은 전처리 알고리즘과 시각화 알고리즘도 제공한다.

최근 개발 환경은 구성 요소 기본 개발 환경을 선호한다. 어댑터나 파이프를 사용해서 구성 요소와 연결하여 결과를 처리하는데 매우 높은 유연성을 가지고 있고 어느 프로그램 환경에서나 동작 할 수 있다. 단점으로는 컴포넌트 동작을 위해서 많은 지식이 요구가 된다.

6. 3. 사용자 개발 인공 신경망

사용자 개발 인공 신경망은 다양한 환경에서 사용자가 직접 구현한 형태가 많다. 높은 유연성을 가지지만 개발이 어렵다는 단점이 있다. 연구 분야뿐만 아니라 실제 서비스 등 다양한 분야에서 활용된다.

7. 신경망 알고리즘 종류

순전파형 신경망(피드포워드 신경망, 피드 포워드 뉴럴 네트워크/Feed-forward Neural Network^영어; '''FFN''', '''FFNN''')은 내부에 '''순환을 가지지 않는''' 신경망의 총칭이다.^{[ja-13]논문 Serial order: A parallel distributed processing approach University of California, Institute for Cognitive Science}

신경망에서는 종종 층(레이어)의 개념을 도입한다. FFN에서는 입력 레이어 → 중간 레이어 → 출력 레이어와 같이 단일 방향/'''순'''방향으로만 신호가 '''전파'''된다. 이는 회귀형 신경망과 대조된다. 층간의 결합 양식에 따라 다양한 신경망이 존재하지만, 결합 양식에 관계없이 회귀 결합을 가지지 않는 것은 모두 FFN에 속한다. 다음은 FFN의 예시이다.

단순 퍼셉트론: 1-layer 층간 완전 연결 네트워크
다층 퍼셉트론: N-layer 층간 완전 연결 네트워크
합성곱 신경망: N-layer 층간 국소 연결 네트워크

오차역전파법에 사용되는 활성화 함수에 방사 기저 함수(Radial Basis Function)를 사용한 신경망

방사 기저 함수 네트워크(RBF 네트워크)
일반 회귀 신경망(GRNN, General Regression Neural Network) - 정규화된 RBF 네트워크

자기 조직화 사상(Self-Organizing Map, SOM)은 테우보 코호넨(Teuvo Kohonen)이 1982년에 제안한 비지도 학습 모델이며, 다차원 데이터의 클러스터링, 시각화 등에 사용된다. 자기 조직화 맵, 코호넨 맵이라고도 불린다.

자기 조직화 사상
학습 벡터 양자화

인공 신경망 유형은 복잡한 다중 입력과 방향성 피드백 루프와 단방향 또는 양방향 그리고 다양한 계층등 여러 가지 종류가 있다. 전반적으로 이들 시스템의 알고리즘은 각각 함수의 제어와 연결을 결정하게 된다. 대부분의 시스템은 "가중치"와 다양한 신경들의 연결을 시스템의 매개 변수를 수정하는데 사용된다. 인공 신경망은 외부의 훈련으로부터 자동적으로 학습을 하거나 스스로 데이터를 사용해서 발전 될 수 있다.

순방향 신경망(Feedforward neural network): 가장 간단한 방법의 인공신경망 방법이다. 신경망 정보가 입력 노드에서 은닉노드를 거쳐 출력 노드까지 전달 되며 순환 경로가 존재하지 않는 그래프를 형성한다. 다양한 방법의 구조가 존재하는데 이진 구조, 퍼셉트론, 시그모이드 등등 여러 가지 방법으로 구성 할 수 있다.
방사 신경망(Radial basis function network): 방사상 인공 신경망은 다차원의 공간의 보간법에 매우 강력한 능력을 가지고 있다. 방사 함수는 다 계층의 시그모이드 함수를 은닉 노드에서 사용하는 형태를 대체할 수 있다.
코헨 자기조직 신경망(kohonen self-organizing network): 자기조직 신경망 알고리즘은 대표적인 신경망 알고리즘중 하나로 대부분의 신경망 알고리즘이 지도(supervised) 학습방법을 사용하는 것과는 대조적으로 자율(unsupervised) 학습방법과 경쟁(competitive) 학습방법을 사용한다. 신경망은 입력층과 경쟁층으로 나뉘고, 경쟁층의 각 뉴런은 연결강도 백터와 입력백터가 얼마나 가까운가를 계산한다. 그리고 각 뉴런들은 학습할 수 있는 특권을 부여 받으려고 서로 경쟁하는데 거리가 가장 가까운 뉴런이 승리하게 된다. 이 승자 뉴런이 출력신호를 보낼 수 있는 유일한 뉴런이다. 또한 이 뉴런과 이와 인접한 이웃 뉴런들만이 제시된 입력 백터에 대하여 학습이 허용된다.
순환 인공 신경망(Recurrent neural network): 순환 인공 신경망은 전방 신경망과 정 반대의 동작을 한다. 노드들 간의 양방향 데이터 이동이하며 데이터는 선형적으로 전달이 된다. 데이터가 후방 노드에서 전방노드로 전달하여 연산이 수행될 수 도 있다.

8. 이론적 특성

wikitext

8. 1. 계산 능력

다층 퍼셉트론은 보편 함수 근사 정리에 따라 만능 함수 근사기로 증명되었지만, 필요한 뉴런 수, 네트워크 구조, 가중치 및 학습 매개변수에 대한 구체적인 정보는 제공하지 않는다.

실수 값 가중치와 달리 유리수 값 가중치를 갖는 특정 순환 구조는 유한한 수의 뉴런과 표준 선형 연결을 사용하여 만능 튜링 머신의 기능을 가진다. 또한, 가중치에 무리수 값을 사용하면 초계산 능력을 가진 기계가 된다.^{[en-212]논문 On the Spectral Bias of Neural Networks 2022-06-04}^{[en-213]논문 Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks}

FFN(Feedforward Network)은 병렬 계산이 가능하다. 회귀 결합을 가진 네트워크는 순차적으로 처리를 반복해야 하므로, 하나의 데이터에 대해 시간 방향으로 병렬 계산을 할 수 없다. FFN은 층 내에서 병렬 계산이 가능하여, GPU와 같은 병렬 계산기의 성능을 최대한 활용할 수 있다.^{[ja-14]기타}

다층 퍼셉트론(MLP)은 보편 근사 정리로 증명된 일반적인 함수 근사자이지만, 이 증명은 인공신경망에 필요한 신경의 수나 가중치 설정에 직접적으로 관여하지 않는다.

하바 세이겔만과 에드워도 다니엘 손택의 연구^{[ko-39]저널 Turing computability with neural nets 2013-12-09}에 따르면, 유한한 수의 뉴런과 일반적인 선형 연결을 사용하고 유리수 값 가중치를 갖는 반복 구조는 만능 튜링 머신과 동일한 성능을 가진다. 또한, 무리수 값 가중치를 사용하면 튜링 기계 이상의 성능을 발휘할 수 있다는 것이 증명되었다.^{[ko-40]저널 Computational Power of Neural Networks: A Kolmogorov Complexity Characterization 2014-11-03}

8. 2. 수용력(Capacity)

모델의 "용량" 속성은 주어진 함수를 모델링하는 능력을 의미한다. 이는 네트워크에 저장할 수 있는 정보의 양과 복잡성 개념과 관련이 있다.

커뮤니티에는 정보 용량과 VC 차원이라는 두 가지 용량 개념이 있다. 퍼셉트론의 정보 용량은 토마스 코버의 연구를 요약한 데이비드 맥케이 경의 책에서 논의된다.^{[en-214]논문 Theory of the Frequency Principle for General Deep Neural Networks 2019}^{[en-215]논문 Deep Frequency Principle Towards Understanding Why Deeper Learning is Faster 2021-05-18} 표준 뉴런 네트워크의 용량은 뉴런을 전기적 요소로 이해하는 데서 파생된 네 가지 규칙에 의해 도출될 수 있다.^{[en-216]논문 Continual lifelong learning with neural networks: A review 2019-05-01} 정보 용량은 입력을 데이터로 주어졌을 때 네트워크가 모델링할 수 있는 함수를 포착한다. VC 차원은 측도론의 원리를 사용하여 최상의 조건에서 최대 용량을 찾는다. 이는 특정 형태의 입력 데이터가 주어졌을 때를 의미한다. 임의 입력에 대한 VC 차원은 퍼셉트론의 정보 용량의 절반이다.^{[en-214]논문 Theory of the Frequency Principle for General Deep Neural Networks 2019} 임의 점에 대한 VC 차원은 메모리 용량이라고도 한다.^{[en-217]간행물 Knowledge-based Training of Artificial Neural Networks for Autonomous Robot Driving}

인공신경망 모델은 수용력이라는 특성을 가지고 있으며, 이는 신경망에서 주어진 함수 모델의 능력과 관련된다. 또한 신경망에 저장될 수 있는 정보의 총량과 정보 개념의 복잡도와도 관련이 깊다.

8. 3. 근사(Convergence)

모델은 비용 함수와 모델에 따라 지역 최솟값이 존재할 수 있기 때문에 단일 해법으로 일관되게 수렴하지 않을 수 있다. 둘째, 사용된 최적화 방법이 지역 최솟값에서 멀리 떨어진 곳에서 시작할 때 수렴을 보장하지 않을 수 있다. 셋째, 데이터 또는 매개변수가 충분히 클 경우 일부 방법은 비실용적이 된다.

학습이 수렴을 잘못된 방향으로 이끌 수 있는 일부 안장점(Saddle point)을 교차할 수 있다는 문제도 있다.

특정 유형의 인공 신경망(Artificial neural network)(ANN) 아키텍처의 수렴 동작은 다른 아키텍처보다 더 잘 이해되고 있다. 네트워크의 너비가 무한대에 가까워지면 인공 신경망(Artificial neural network)(ANN)은 학습 전반에 걸쳐 1차 테일러 전개로 잘 설명되므로 선형 모델(Linear model)의 수렴 동작을 상속한다.^{[en-218]서적 Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science Wiley 1997-04-01}^{[en-219]웹사이트 NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE 2010-04-02} 또 다른 예는 매개변수가 작을 때 인공 신경망(Artificial neural network)(ANN)이 종종 낮은 주파수에서 높은 주파수로 목표 함수를 맞추는 것으로 관찰된다. 이러한 동작을 신경망의 스펙트럼 편향 또는 주파수 원리라고 한다.^{[en-220]웹사이트 Roger Bridgman's defence of neural networks 2010-07-12}^{[en-221]웹사이트 Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0}^{[en-222]간행물 Distributed hierarchical processing in the primate cerebral cortex}^{[en-223]간행물 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind BMI Press} 이 현상은 야코비 방법(Jacobi method)과 같이 잘 연구된 일부 반복적 수치 기법의 동작과 반대된다. 더 깊은 신경망은 낮은 주파수 함수에 더 편향되어 있는 것으로 관찰되었다.^{[en-224]논문 Growing pains for deep learning 2015-06-25}

인공 신경망(Artificial neural network)을 계산할 때는 항상 근사에 대한 몇가지 문제에 직면하게 된다. 첫번째로, 국지적 최솟값이 존재할 수 있다는 것이다. 이것은 신경망의 비용(Cost)함수와 모델에 좌우된다. 두번째로, 알려진 최적화 방법은 국지적 최솟값과 멀리 떨어져 있을 때 적당한 근사를 보장하지 않을 수 있다는 점이다. 세번째로, 상당히 큰 양의 데이터나 변수들에 대해서 일부 이미 알려진 알고리즘들은 비현실적일 수 있다. 일반적으로, 근사에 대한 이론적 보장은 실생활 데이터의 적용에서는 신뢰할 만 하지 않을 수 있다고 알려져 있다.

8. 4. 일반화와 통계

보이지 않는 예시에도 잘 일반화되는 시스템을 만드는 것이 목표인 애플리케이션은 과잉 훈련의 가능성에 직면한다. 이는 네트워크 용량이 필요한 자유 매개변수를 크게 초과할 때 복잡하거나 과도하게 명시된 시스템에서 발생한다. 과잉 훈련을 해결하는 데는 두 가지 접근 방식이 있다. 첫 번째는 교차 검증 및 유사한 기술을 사용하여 과잉 훈련의 존재 여부를 확인하고 일반화 오류를 최소화하기 위한 하이퍼파라미터를 선택하는 것이다.

두 번째는 일종의 정규화를 사용하는 것이다. 이 개념은 더 간단한 모델에 대해 더 큰 사전 확률을 선택하여 정규화를 수행할 수 있는 확률적(베이즈) 프레임워크에서 나타나지만, 통계 학습 이론에서도 '경험적 위험'과 '구조적 위험'이라는 두 가지 양을 최소화하는 것이 목표이다. 경험적 위험은 훈련 세트에 대한 오류에 해당하고, 구조적 위험은 과적합으로 인해 보이지 않는 데이터의 예측 오류에 해당한다.

평균 제곱 오차(MSE) 비용 함수를 사용하는 지도 신경망은 공식적인 통계 방법을 사용하여 훈련된 모델의 신뢰도를 결정할 수 있다. 검증 세트의 MSE는 분산에 대한 추정치로 사용할 수 있다. 이 값은 정규 분포를 가정하여 네트워크 출력의 신뢰 구간을 계산하는 데 사용할 수 있다. 이러한 방식으로 수행된 신뢰도 분석은 출력 확률 분포가 동일하게 유지되고 네트워크가 수정되지 않는 한 통계적으로 유효하다.

범주형 목표 변수에 대해 신경망(또는 구성 요소 기반 네트워크의 소프트맥스 구성 요소)의 출력 레이어에 로지스틱 함수의 일반화인 소프트맥스 활성화 함수를 할당함으로써 출력을 사후 확률로 해석할 수 있다. 이는 분류에 대한 확실성 측정을 제공하므로 분류에 유용하다.

소프트맥스 활성화 함수는 다음과 같다.

:

y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}

실제 적용에서의 목표는 신경망에 학습되지 않은 숨겨진 예시에 대해서도 정확한 추측을 가능하게 하는 것이지만, 이를 위한 과도한 훈련은 문제를 일으킬 수 있다. 즉, 필요한 자유 매개변수에 대해 네트워크의 용량이 이를 엄청나게 초과했을 때에는 시스템에 복잡한 문제가 발생될 수 있다. 이러한 문제를 피하기 위한 두 가지 해결책이 제시되었다.

첫 번째는 교차타당화(cross-validation)와 비슷한 방법으로, 현재 신경망이 과도한 훈련이 되었는지 지속적으로 확인하고 오류를 최소화하며, 신경망 학습을 최적화하기 위해 특수한 매개변수(Hyperparameters)를 선택하는 방법이다. 두 번째 제시된 방법은 정칙화(Regularization)이다. 이 개념은 확률적(베이즈) 프레임워크에서 자연적으로 드러난다. 즉, 정칙화는 쉬운 신경망 모델들 중에서 더 큰 우선순위를 가지는 확률을 선택함으로써 수행될 수 있다. 하지만 통계적 학습이론에서도, 궁극적인 목표는 경험에 의한 위험성(Empirical risk)과, 구조적 위험성(Structural risk)의 두 가지 값을 최소화하는 것이다. 이것들은 훈련집합 자체의 오류 및 과도한 훈련 및 학습으로 인해 숨겨졌던 자료에 대한 예고되는 오류와 크게 상관있는 것으로 알려져 있다.

평균제곱오차 비용함수를 사용하는 교사 학습된 신경망은 학습된 모델의 신뢰도를 결정하기 위해 이미 알려진 여러 가지 통계 방법을 사용할 수 있다. 예를 들어, 검증집합의 평균제곱오차는 분산을 측정할 때 사용될 수 있다. 또한 이 값이 정규분포를 따른다고 가정하면, 네트워크의 출력 값의 신뢰 구간을 계산하는 데 사용될 수 있다. 출력 확률 분포는 동일하게 유지하고 네트워크가 수정되지 않기 때문에 이렇게 만든 신뢰도 분석은 통계적으로 유효하다. 범주 대상 변수를 위한 신경망 (또는 컴포넌트 기반 뉴럴 네트워크에서 softmax 성분)의 출력층에 softmax 활성화 함수, 즉 로지스틱 방정식의 일반화를 할당하여, 출력은 사후 확률로 해석될 수 있다. 이것은 분류할 때 확실한 측정값을 주기 때문에 이에 매우 유용하다.

softmax 활성화 함수는 일반적으로 아래와 같이 나타내어진다.

:

y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}

인공신경망의 시뮬레이션을 할 때, Softmax 함수는 신경망 마지막 층의 분류 계산을 하기 위해 구현된다. 일반적인 로그-손실(log loss) 또는 교차-엔트로피(Cross-entropy) 방식으로 학습된 신경망에서는, 다항 로지스틱 회귀분석(multinomial logistic regression)의 비선형 도함수(Derivative)를 가질 수 있다.

함수 지도 벡터와 특수 인덱스 i를 실수 값으로 보면, 도함수(Derivative) 식은 아래와 같이 인덱스를 고려해야 한다.

:

\frac{\partial}{\partial q_k}\sigma(\textbf{q}, i) = \dots =  \sigma(\textbf{q}, i)(\delta_{ik} - \sigma(\textbf{q}, k))

여기서, 크로네커 델타는 단순화를 위해 사용된다.(이것은 함수 그 자체로 표현되는 시그모이드 함수의 도함수(Derivative)와 비교될 수 있다.)

9. 인공신경망에 대한 논란

wikitext

인공신경망 기술은 다양한 분야에서 혁신적인 발전을 가져왔지만, 동시에 여러 윤리적, 사회적 논란을 야기하고 있다. 이러한 논란은 주로 인공신경망의 작동 방식에 대한 불투명성, 데이터 편향으로 인한 차별 문제, 그리고 인간의 일자리에 대한 잠재적 위협과 관련이 있다.
불투명성: 인공신경망, 특히 심층 신경망은 '블랙박스'와 같아서 그 내부 작동 원리를 인간이 완전히 이해하기 어렵다. 이러한 불투명성은 인공신경망의 예측이나 판단에 대한 신뢰도를 떨어뜨리고, 오류가 발생했을 때 그 원인을 파악하고 수정하는 것을 어렵게 만든다. 의료, 법률, 금융 등 중요한 결정을 내리는 분야에서 이러한 불투명성은 심각한 문제가 될 수 있다.^{[ko-1]저널 A Logical Calculus of Ideas Immanent in Nervous Activity}
데이터 편향: 인공신경망은 학습 데이터에 크게 의존한다. 만약 학습 데이터가 특정 인종, 성별, 사회 계층에 편향되어 있다면, 인공신경망은 차별적인 결과를 내놓을 수 있다. 예를 들어, 얼굴 인식 시스템이 백인 남성의 얼굴은 잘 인식하지만, 유색인종 여성의 얼굴은 잘 인식하지 못하는 문제가 발생할 수 있다. 이러한 데이터 편향은 인공신경망이 사회적 불평등을 심화시킬 수 있다는 우려를 낳는다.^{[ko-2]서적 The Organization of Behavior Wiley}
일자리 위협: 인공신경망 기술이 발전하면서, 많은 전문가들은 인공지능이 인간의 일자리를 대체할 것이라고 예측한다. 특히 반복적이고 단순한 업무를 수행하는 일자리가 먼저 인공지능으로 대체될 가능성이 높다. 이러한 변화는 대량 실업을 초래할 수 있으며, 이는 사회적 불안정과 불평등을 심화시킬 수 있다. 인공신경망이 대체할 수 없는 새로운 종류의 일자리에 대한 고민과 사회적 안전망 구축이 필요한 시점이다.^{[ko-3]저널 Simulation of Self-Organizing Systems by Digital Computer}
윤리적 문제: 인공신경망 기술은 인간의 존엄성, 자율성, 사생활 침해와 같은 여러 윤리적 문제를 야기한다. 인공신경망이 인간의 행동을 감시하고 예측하는 데 사용될 경우, 개인의 자유와 권리가 침해될 수 있다. 또한 인공신경망이 자율적으로 결정을 내리는 능력은 '로봇 윤리'와 같은 새로운 윤리적 논의를 필요로 한다. 인공신경망이 인간의 통제를 벗어나거나 악의적인 목적으로 사용될 가능성에 대한 우려도 존재한다.^{[ko-4]저널 Tests on a cell assembly theory of the action of the brain, using a large digital computer}
규제 및 사회적 대응: 인공신경망 기술의 발전과 함께 이러한 논란에 대한 사회적 대응이 필요하다. 인공신경망의 투명성을 확보하고 데이터 편향 문제를 해결하기 위한 기술적 노력과 함께, 관련 법률과 제도를 정비해야 한다. 또한 인공신경망 기술의 발전에 따른 사회적 변화에 대한 교육과 토론을 통해 인공신경망 기술이 인간 사회에 긍정적으로 기여할 수 있도록 해야 한다. 인공신경망 기술의 발전은 기술적 진보뿐만 아니라 사회 전체의 발전과 조화를 이루어야 한다.^{[ko-5]저널 The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain}

9. 1. 학습 문제

인공신경망은 로보틱스 분야에서 많은 비판을 받는데, 실제 상황에 부합하는 작동을 학습하려면 다양한 경우에 대한 방대한 자료 수집이 필요하기 때문이다. 이는 학습 기계가 새로운 상황에 정확히 작동하기 위해 많은 훈련 예시를 필요로 하는 것과 같다. 딘 포말리우(Dean Pomerleau)는 로봇 자동차 훈련에 인공신경망을 사용했는데, 그의 연구는 하나의 학습 경험에서 여러 학습 시나리오를 추정하고, 과거 학습의 다양성을 유지하여 시스템이 과도하게 학습하는 것을 막는 데 초점을 맞췄다. 예를 들어, 과거에 학습된 우회전을 잊지 않으면서도 비슷한 상황에서 항상 우회전하는 것을 방지하는 식이다. 실제 상황의 다양한 반응에 대해 무엇을 훈련하고 선택할지는 인공신경망에서 흔히 발생하는 문제이다.

알렉산더 듀드니(A. K. Dewdney)는 1997년 글에서 신경망이 간단한 문제를 해결할 때에도 그 계산 능력이 일반적인 문제 해결 기법을 뛰어넘을 수 있다고 언급했다.

9. 2. 하드웨어 문제

크고 효과적인 신경망은 상당한 컴퓨팅 자원을 필요로 한다. 뇌는 뉴런의 그래프를 통해 신호를 처리하는 작업에 맞춰진 하드웨어를 가지고 있지만, 폰 노이만 구조에서 단순화된 뉴런조차 시뮬레이션하는 데에는 방대한 양의 메모리와 저장 공간이 필요할 수 있다. 또한, 설계자는 종종 이러한 연결과 관련 뉴런을 통해 신호를 전송해야 하며, 이는 막대한 CPU 성능과 시간을 필요로 한다.

일부에서는 21세기 신경망의 부활이 주로 하드웨어 발전 덕분이라고 주장한다. 1991년부터 2015년까지 컴퓨팅 성능, 특히 GPGPU ( GPU )를 통해 제공되는 컴퓨팅 성능은 약 백만 배 증가하여 표준 역전파 알고리즘으로 이전보다 몇 층 더 깊은 네트워크를 훈련하는 것이 가능해졌다. FPGA 및 GPU와 같은 가속기를 사용하면 훈련 시간을 몇 달에서 며칠로 줄일 수 있다.

뉴로모픽 공학 또는 물리적 신경망은 회로에서 신경망을 직접 구현하기 위해 비 폰 노이만 칩을 구성하여 하드웨어 문제를 직접 해결한다. 신경망 처리에 최적화된 또 다른 유형의 칩을 텐서 처리 장치(Tensor Processing Unit, TPU)라고 한다.

크고 효과적인 인공신경망 소프트웨어를 구현하기 위해서는 상당한 프로세싱 기법과 저장 자원이 필요하다. 우리의 뇌는 신경 그래프를 통한 신경전달 프로세싱 임무에 최적화된 하드웨어를 가지고 있다. 우리가 가장 간단하게 시뮬레이션 할 수 있는 폰 노이만 기술 조차도 신경망 디자이너로 하여금 뇌와 같은 신경 그래프를 구축하기 위해 수백, 수천만 개의 데이터베이스 행을 채우도록 하고 있다. 이는 엄청난 양의 컴퓨터 메모리와 하드디스크 공간을 소비하게 한다. 게다가, 신경망 시스템의 디자이너는 이런 엄청난 신경 연결과 뉴런들을 통해 뇌와 같은 신호 전달을 시뮬레이션 할 수 있어야 한다. 이것은 일반적인 CPU의 처리능력과 시간으로는 불가능한 양일 정도이다. 하지만, 신경망은 가끔 효과적인 프로그램을 만들어 낼 수 있게 해주고 비용적 측면에서도 효율적이고 고려할만한 정도의 효과를 내 줄 때가 있다. 게다가 컴퓨터의 계산능력은 무어의 법칙에 따라 지속적으로 크게 증가하고 있으며, 이는 새로운 임무를 효과적으로 달성하는데 기여하고 있다. 또한 신경모방 공학에서는 처음부터 신경망을 구현하기 위해 설계된 회로(비 폰 - 노이만 칩)를 구성하여, 직접적으로 하드웨어적 어려움을 해결하기 위해 노력하고 있다.

9. 3. 실제 반례에 대한 비판

인공 신경망(ANN) 학습 내용을 분석하는 것은 생물학적 신경망 학습 내용 분석보다 훨씬 쉽다. 신경망 학습 알고리즘 연구자들은 학습 기계가 성공하도록 하는 일반 원리를 밝혀내고 있다. 예를 들어, 국소 학습 대 비국소 학습, 얕은 구조 대 깊은 구조 등이 있다.^{[en-236]논문 Generative AI and ChatGPT 2023-07-03} 알렉산더 듀드니는 신경망이 비행기 자동 운전 모드나 신용카드 사기 탐지와 같은 복잡한 문제를 효과적으로 해결해 왔다고 주장한다.^{[ko-41]웹사이트 NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE 2013-11-20}

하지만 기술 저술가 로저 브리드먼은 듀드니의 주장에 대해 신경망이 어떻게 작동하는지 이해하지 못하고 성공적인 네트워크를 만들 수 있다고 과장 광고하며, 이는 불투명하고 이해할 수 없어 과학적 가치가 없다고 비판했다. 듀드니는 이러한 비판에 대해 신경망을 이해하지 못하는 사람들이 기술자처럼 보이기 위해 비판하는 것이라고 반박했다.^{[ko-42]웹인용 Roger Bridgman's defence of neural networks 2015-04-30} 불투명하고 이해하기 어렵더라도 유용한 기계라면 가치가 있다는 것이다.

인공 신경망을 배우고 분석하는 것이 어렵지만, 실제 생물 신경망을 배우고 분석하는 것보다는 쉽다. 또한, 신경망 학습 알고리즘 연구자들은 기계 학습을 성공적으로 만드는 신경 유전적 원리를 발견하고 있다. 벤지오와 레쿤은 2007년 논문에서 지역 학습 대 비지역 학습, 얕은 구조 대 깊은 구조를 다루었다.^{[ko-43]웹인용 보관된 사본 2015-04-30}

9. 4. 혼합적 접근

하이브리드 모델(신경망과 상징적 접근 방식을 결합)을 지지하는 사람들은 이러한 혼합이 인간 마음의 메커니즘을 더 잘 포착할 수 있다고 말한다. 일부 분석가들은 신경망과 다른 분야에 대한 혼합적 모델을 지지한다.(예를 들면 기호적 접근과 인공신경망의 결합) 이러한 두 가지 접근방식의 내부 혼합은 사람의 내적 동작에 대한 메커니즘을 조금 더 잘 잡아 낼 수 있을 것이라 생각하기 때문이다.^{[ko-44]간행물}^{[ko-45]저널 A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation}

10. 훈련

신경망은 일반적으로 경험적 위험 최소화를 통해 훈련된다. 이 방법은 주어진 데이터 세트에서 예측된 출력과 실제 목표 값 사이의 차이 또는 경험적 위험을 최소화하기 위해 네트워크의 매개변수를 최적화한다는 개념에 기반한다.^{[en-4]서적 The nature of statistical learning theory Springer 1998} 역전파와 같은 경사 기반 방법이 일반적으로 네트워크의 매개변수를 추정하는 데 사용된다.^{[en-4]서적 The nature of statistical learning theory Springer 1998} 훈련 단계에서 인공 신경망(ANN)은 정의된 손실 함수를 최소화하기 위해 매개변수를 반복적으로 업데이트하여 레이블링된 훈련 데이터로부터 학습한다.^{[en-5]서적 Deep Learning MIT Press} 이 방법을 통해 네트워크는 보이지 않는 데이터로 일반화할 수 있다.

신경망 학습은 최적화 문제로 정식화할 수 있다.

현재 가장 널리 사용되는 방법은 경사법의 일종인 경사 하강법을 연쇄 법칙과 함께 사용하는 역전파이다.

경사법에 의존하지 않는 학습법(gradient-free method)은 역사적으로도 많이 사용되었으며, 현재도 연구가 진행되고 있다.

11. 유형

인공 신경망의 종류에서 볼 수 있듯이, 인공 신경망(ANN)은 다양한 분야에서 발전해 왔다. 가장 단순한 유형은 단위 수, 계층 수, 단위 가중치 및 위상수학을 포함한 하나 이상의 정적 구성 요소를 가진다. 동적 유형은 이러한 요소 중 하나 이상이 학습을 통해 진화할 수 있도록 한다. 후자는 훨씬 더 복잡하지만 학습 기간을 단축하고 더 나은 결과를 생성할 수 있다. 일부 유형은 연산자에 의한 "감독" 학습을 허용하거나 요구하는 반면, 다른 유형은 독립적으로 작동한다. 일부 유형은 순수하게 하드웨어에서 작동하는 반면, 다른 유형은 순수하게 소프트웨어이며 범용 컴퓨터에서 실행된다.

주요 혁신 사항 중 일부는 다음과 같다.

시각 및 기타 2차원 데이터 처리에 특히 성공적인 것으로 입증된 합성곱 신경망^{[en-152]논문 Long Short-Term Memory 1997-11-01}^{[en-153]웹사이트 Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling 2014} 여기서 장단기 메모리는 기울기 소실 문제를 피하고^{[en-154]arXiv Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition 2014-10-15} 저주파 및 고주파 성분의 혼합 신호를 처리하여 대규모 어휘 음성 인식,^{[en-155]논문 TTS synthesis with bidirectional LSTM based Recurrent Neural Networks 2017-06-13}^{[en-156]논문 Deep Learning} 텍스트 음성 합성,^{[en-157]웹사이트 Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis ICASSP 2017-06-27}^{[en-158]논문 Photo-Real Talking Head with Deep Bidirectional LSTM 2017-06-27}^{[en-159]arXiv Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 2017-12-05} 사진처럼 실감 나는 말하는 머리에 도움이 될 수 있다.^{[en-160]논문 Tunability: Importance of Hyperparameters of Machine Learning Algorithms 2018-02-26}
여러 네트워크(다양한 구조)가 게임에서 이기기^{[en-161]arXiv Neural Architecture Search with Reinforcement Learning 2016-11-04} 또는 입력의 진위 여부에 대해 상대를 속이는 것과 같은 작업에서 서로 경쟁하는 생성적 적대 신경망과 같은 경쟁 네트워크^{[en-93]학술대회 Generative Adversarial Networks 2019-08-20}

畳み곱 신경망(Convolutional Neural Network)은 층간이 완전 연결이 아닌 순전파형 신경망의 일종이다. 주로 이미지를 대상으로 사용되는 경우가 많다.

피드 포워드 신경망과 달리, 양방향으로 신호가 전파되는 모델이다. 모든 노드가 다른 모든 노드와 결합을 가지고 있는 경우, 완전 연결 순환 신경망이라고 부른다. 시퀀셜한 데이터에 대해 효과적이며, 자연어 처리나 음성, 동영상 분석 등에 이용된다.^{[ja-15]논문 A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures 2019-07-01}

호프필드 네트워크

적대적 생성 네트워크(Generative Adversarial Network, '''GAN''')는 가우시안 등의 확률 분포에서 얻은 노이즈를 네트워크 A (Generator)가 데이터로 변환하고, 네트워크 B가 모집단에서 샘플링된 데이터와 네트워크 A의 출력을 구별하도록 학습하는 모델이다. DCGAN, StyleGAN, BigGAN 등이 그 예이다.

다양한 모델이 추상화 단계에서 시스템의 특성에 따라 다르게 적용이 된다. 다양한 모델들 각각 신경 세포와 신경 회로의 관계가 최종 시스템이 추상적 신경 모델에서 발생 할 수 있는 상호작용과 단기 행동 모델까지 다양한 모델들이 있다. 이러한 신경 시스템모델들은 각각 신경 세포와 시스템 간의 상호 관계에 따라 달라진다.

12. 네트워크 설계

인공 신경망을 사용하려면 해당 특성에 대한 이해가 필요하다. 모델 선택은 데이터 표현 및 응용 프로그램에 따라 달라진다. 모델 매개변수에는 네트워크 계층의 수, 유형 및 연결성뿐만 아니라 각 계층의 크기 및 연결 유형(전체, 풀링 등)이 포함된다. 지나치게 복잡한 모델은 학습 속도가 느리다. 학습 알고리즘 사이에는 수많은 상충 관계가 존재한다. 거의 모든 알고리즘은 특정 데이터 세트에서 훈련하기 위한 올바른 하이퍼파라미터^{[en-162]논문 Auto-keras: An efficient neural architecture search system ACM 2019-08-21}를 사용하면 잘 작동한다. 그러나 보이지 않는 데이터에 대한 훈련을 위해 알고리즘을 선택하고 조정하려면 상당한 실험이 필요하다. 모델, 비용 함수 및 학습 알고리즘이 적절하게 선택되면 결과 ANN이 로버스트해질 수 있다.

신경망 구조 탐색(NAS)은 기계 학습을 사용하여 ANN 설계를 자동화한다. NAS에 대한 다양한 접근 방식은 수동으로 설계된 시스템과 비교할 수 있는 네트워크를 설계했다. 기본적인 검색 알고리즘은 후보 모델을 제안하고 데이터 세트에 대해 평가하고 결과를 NAS 네트워크를 가르치는 피드백으로 사용하는 것이다.^{[en-163]arXiv Hyperparameter Search in Machine Learning 2015} 사용 가능한 시스템에는 AutoML 및 AutoKeras^{[en-164]서적 Handbook of Applied Mathematics Springer US 1990}가 있다. scikit-learn 라이브러리는 처음부터 딥 네트워크를 구축하는 데 도움이 되는 기능을 제공한다. 그런 다음 텐서플로(TensorFlow) 또는 케라스(Keras)로 딥 네트워크를 구현할 수 있다.

하이퍼파라미터는 각 계층의 뉴런 수, 학습률, 스텝, 스트라이드, 깊이, 수용 영역 및 패딩(CNN의 경우) 등과 같은 사항을 관리하며 설계의 일부로도 정의해야 한다(학습되지 않음).^{[en-165]서적 A Concise Guide to Market Research Springer Berlin Heidelberg 2023-03-20}

13. 응용 분야

인공 신경망은 비선형 프로세스 재현 및 모델링 능력으로 여러 분야에 응용된다. 함수 근사, 회귀 분석(시계열 예측, 적합도 근사 및 모델링 포함), 데이터 처리(필터링, 클러스터링, 블라인드 소스 분리 및 압축 포함), 비선형 시스템 식별 및 제어(차량 제어, 궤적 예측, 적응 제어, 공정 제어 및 천연 자원 관리 포함), 패턴 인식(레이더 시스템, 얼굴 인식 시스템, 신호 분류, 이상 감지, 3차원 재구성, 객체 인식 및 순차적 의사 결정 포함), 시퀀스 인식(제스처 인식, 음성 인식, 필기 인식 및 인쇄된 텍스트 인식 포함), 센서 데이터 분석(이미지 분석 포함), 로봇 공학(조작기 및 보철 지시 포함), 데이터 마이닝(데이터베이스의 지식 발견 포함), 금융(특정 장기 재정 예측 및 인공 금융 시장을 위한 사전적 모델 등), 양자 화학, 일반 게임 플레이, 생성형 인공지능, 데이터 시각화, 기계 번역, 소셜 네트워크 필터링, 이메일 스팸 필터링, 의료 진단 등에 활용된다.

인공 신경망은 여러 유형의 암 진단 및 세포 모양 정보만을 사용하여 침습성이 높은 암세포주와 침습성이 낮은 세포주를 구별하는 데 사용되었다. 자연재해에 따른 사회 기반 시설의 신뢰성 분석을 가속화하고 기초 침하를 예측하는 데도 활용되었으며, 강우 유출 모델링을 통해 홍수를 완화하는 데도 기여한다. 지구과학에서는 수문학, 해양 모델링, 해안 공학, 지형학 등에서 블랙박스 모델을 구축하는 데 사용된다. 또한 컴퓨터 보안에서 합법적인 활동과 악의적인 활동을 구별하는 데 사용되며, 머신러닝은 안드로이드 악성 코드 분류, 위협 행위자 도메인 식별, 보안 위험 URL 감지 등에 활용된다. 침투 테스트, 봇넷 감지, 신용 카드 사기, 네트워크 침입 방지 시스템에도 적용되고 있다.

물리학에서는 편미분 방정식을 풀고 다체 개방 양자 시스템 속성을 시뮬레이션하는 도구로도 활용된다. 뇌 연구에서는 생물학적 뉴런 모델의 단기적 행동, 개별 뉴런 간 상호 작용에서 발생하는 신경 회로 역학, 추상적인 신경 모듈에서의 행동 발생 등을 연구한다. 또한, 개별 뉴런에서 시스템 수준까지의 신경계 장단기 가소성과 학습 및 기억 관계도 연구한다.

객체 인식 학습을 받은 인공 신경망으로 사진에서 사용자 관심사 프로필을 생성할 수 있다. 재료 과학과 같은 학제 간 연구에서도 활용이 증가하고 있으며, 그래프 신경망(GNN)은 결정체의 총 에너지를 효율적으로 예측하여 새로운 안정적인 재료 발견을 위한 딥 러닝을 확장하는 데 기여한다.

3층 피드포워드 신경망으로 회귀를 구현하는 예시로, $x = [-1, 1]$ 에서 $y = 2 x^2 - 1$ 를 학습한다. 활성화 함수는 ReLU를 사용하고, 학습은 확률적 경사 하강법으로 오차역전파법을 수행한다. 3층 피드포워드 신경망 모델의 수식은 다음과 같다. $X$ 는 입력, $Y$ 는 출력, $T$ 는 훈련 데이터, $\psi$ 는 활성화 함수이며, $W_1, W_2, B_1, B_2$ 가 학습 대상이다.

: $Y = W_2 \psi(W_1 X + B_1) + B_2$

오차 함수는 출력과 훈련 데이터 사이의 제곱합 오차를 사용한다.

: $E = \frac{1}{2} \| Y - T \|^2$

오차 함수 $E$ 를 매개변수로 편미분한 수식은 다음과 같다.

: $\begin{align}\frac{\partial E}{\partial W_1} &= \left(\left((Y - T)^{\mathrm{T}} W_2 \right)^{\mathrm{T}} \circ \psi'(W_1 X + B_1)\right) X^{\mathrm{T}} \\\frac{\partial E}{\partial B_1} &= \left((Y - T)^{\mathrm{T}} W_2 \right)^{\mathrm{T}} \circ \psi'(W_1 X + B_1) \\\frac{\partial E}{\partial W_2} &= (Y - T) \psi(W_1 X + B_1)^{\mathrm{T}} \\\frac{\partial E}{\partial B_2} &= Y - T\end{align}$

파이썬(Python) 3.5로 구현한 코드는 다음과 같다.

```python

import numpy as np

dim_in = 1 # 입력은 1차원

dim_out = 1 # 출력은 1차원

hidden_count = 1024 # 은닉층의 노드는 1024개

learn_rate = 0.005 # 학습률

# 훈련 데이터는 x는 -1~1, y는 2 * x ** 2 - 1

train_count = 64 # 훈련 데이터 수

train_x = np.arange(-1, 1, 2 / train_count).reshape((train_count, dim_in))

train_y = np.array([2 * x ** 2 - 1 for x in train_x]).reshape((train_count, dim_out))

# 가중치 매개변수. -0.5 ~ 0.5로 랜덤하게 초기화. 이 행렬의 값을 학습한다.

w1 = np.random.rand(hidden_count, dim_in) - 0.5

w2 = np.random.rand(dim_out, hidden_count) - 0.5

b1 = np.random.rand(hidden_count) - 0.5

b2 = np.random.rand(dim_out) - 0.5

# 활성화 함수는 ReLU

def activation(x):

return np.maximum(0, x)

# 활성화 함수의 미분

def activation_dash(x):

return (np.sign(x) + 1) / 2

# 순방향. 학습 결과의 이용.

def forward(x):

return w2 @ activation(w1 @ x + b1) + b2

# 역방향. 학습

def backward(x, diff):

global w1, w2, b1, b2

v1 = (diff @ w2) * activation_dash(w1 @ x + b1)

v2 = activation(w1 @ x + b1)

w1 -= learn_rate * np.outer(v1, x) # outer는 외적

b1 -= learn_rate * v1

w2 -= learn_rate * np.outer(diff, v2)

b2 -= learn_rate * diff

# 메인 처리

idxes = np.arange(train_count) # idxes는 0~63

for epoc in range(1000): # 1000에포크

np.random.shuffle(idxes) # 확률적 경사 하강법을 위해, 에포크마다 랜덤으로 섞는다

error = 0 # 제곱합 오차

for idx in idxes:

y = forward(train_x[idx]) # 순방향으로 x에서 y를 계산한다

diff = y - train_y[idx] # 훈련 데이터와의 오차

error += diff ** 2 # 제곱합 오차에 축적

backward(train_x[idx], diff) # 오차를 학습

print(error.sum()) # 에포크마다 제곱합 오차를 출력. 점차 감쇠하여 0에 가까워진다.

```

인공 신경망은 함수 추론, 회귀 분석, 시계열 예측, 근사 모델링, 패턴 인식, 순서 인식, 순차 결정 같은 분류 알고리즘, 필터링, 클러스터링, 압축 등의 데이터 처리, 인공 기관의 움직임 조정 같은 로봇 제어, 컴퓨터 수치 제어 등 다양한 분야에 응용된다. 또한, HLDN이라는 인공 신경망 기반 폐암 검출 시스템은 암 진단의 정확성과 속도 향상에 기여했으며, 전립선암 진단에도 사용되었다.^{[ko-38]웹인용 Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data International Journal of Computer Applications} 이 시스템은 많은 환자 데이터로부터 특정 모델을 생성하고, 모델과 환자 데이터를 비교하여 진단한다. 이 모델은 다른 변수의 상관관계나 가정에 의존하지 않으며, 임상 실험 방법보다 더 정확하게 동작하고, 한 기관에서 훈련된 모델이 다른 기관에서도 결과를 예측할 수 있다.

14. 이론적 속성

wikitext

불확정성: 양자역학에서 입자의 위치와 운동량을 동시에 정확하게 측정하는 것은 불가능하다. 이는 하이젠베르크의 불확정성 원리로 알려져 있으며, 입자의 위치를 더 정확하게 측정할수록 운동량에 대한 정보는 불확실해지고, 그 반대의 경우도 마찬가지이다.^{[ko-1]저널 A Logical Calculus of Ideas Immanent in Nervous Activity}
양자 중첩: 양자 역학적 시스템은 여러 상태가 동시에 존재할 수 있으며, 이를 양자 중첩이라고 한다. 예를 들어, 전자는 동시에 여러 위치에 존재할 수 있으며, 관측 행위가 이루어질 때까지 특정 상태로 확정되지 않는다.^{[ko-2]서적 The Organization of Behavior Wiley}
양자 얽힘: 양자 얽힘은 두 개 이상의 입자가 서로 연결되어 있어, 한 입자의 상태를 측정하면 다른 입자의 상태가 즉시 결정되는 현상이다. 이 연결은 거리에 관계없이 순간적으로 일어나며, 양자 정보 과학의 핵심적인 개념이다.^{[ko-3]저널 Simulation of Self-Organizing Systems by Digital Computer}
파동-입자 이중성: 입자는 파동의 성질을 동시에 가지고 있으며, 파동은 입자의 성질을 동시에 가지고 있다. 이러한 파동-입자 이중성은 양자 역학의 기본적인 개념이며, 입자의 행동을 설명하는 데 중요한 역할을 한다.^{[ko-4]저널 Tests on a cell assembly theory of the action of the brain, using a large digital computer}
양자화: 에너지, 운동량, 각운동량 등의 물리량은 연속적인 값을 가지지 않고, 특정 불연속적인 값만을 가질 수 있다. 이러한 현상을 양자화라고 하며, 원자 내부의 전자가 특정 에너지 준위만을 가질 수 있는 이유를 설명한다.^{[ko-5]저널 The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain}

14. 1. 연산 능력

다층 퍼셉트론은 보편 함수 근사 정리에 의해 만능 함수 근사기로 증명되었지만, 필요한 뉴런 수, 네트워크 구조, 가중치 및 학습 매개변수에 대해서는 구체적으로 제시하지 않는다.

실수 값 가중치와 달리 유리수 값 가중치를 갖는 특정 순환 구조는 유한한 수의 뉴런과 표준 선형 연결을 사용하여 만능 튜링 머신의 기능을 가진다. 또한 가중치에 무리수 값을 사용하면 초계산 능력을 가진 기계가 된다.^{[en-212]논문 On the Spectral Bias of Neural Networks 2022-06-04}^{[en-213]논문 Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks}

하바 세이겔만과 에드워도 다니엘 손택의 연구^{[ko-39]저널 Turing computability with neural nets 2013-12-09}는 유한한 수의 뉴런과 일반 선형 연결을 사용한 합리적인 가중치 값을 가진 반복 구조가 튜링 기계와 동일한 성능을 가진다는 것을 증명했다. 또한, 비합리적인 값의 가중치 설정은 튜링 기계 이상의 성능을 발휘하게 한다는 것도 밝혀졌다.^{[ko-40]저널 Computational Power of Neural Networks: A Kolmogorov Complexity Characterization 2014-11-03}

14. 2. 용량

모델의 "용량" 속성은 주어진 함수를 모델링하는 능력에 해당한다. 이는 네트워크에 저장할 수 있는 정보의 양과 복잡성 개념과 관련이 있다.

커뮤니티에는 두 가지 용량 개념이 알려져 있다. 정보 용량과 VC 차원이다. 퍼셉트론의 정보 용량은 토마스 코버(Thomas Cover)의 연구를 요약한 데이비드 맥케이 경(Sir David MacKay)의 책에서 집중적으로 논의된다.^{[en-214]논문 Theory of the Frequency Principle for General Deep Neural Networks 2019}^{[en-215]논문 Deep Frequency Principle Towards Understanding Why Deeper Learning is Faster 2021-05-18} 표준 뉴런(컨볼루션 아님) 네트워크의 용량은 뉴런을 전기적 요소로 이해하는 데서 파생된 네 가지 규칙에 의해 도출될 수 있다.^{[en-216]논문 Continual lifelong learning with neural networks: A review 2019-05-01} 정보 용량은 입력을 데이터로 주어졌을 때 네트워크가 모델링할 수 있는 함수를 포착한다. 두 번째 개념은 VC 차원이다. VC 차원은 측도론(measure theory)의 원리를 사용하여 최상의 조건에서 최대 용량을 찾는다. 이는 특정 형태의 입력 데이터가 주어졌을 때를 의미한다. ^{[en-214]논문 Theory of the Frequency Principle for General Deep Neural Networks 2019}에 언급된 바와 같이, 임의 입력에 대한 VC 차원은 퍼셉트론의 정보 용량의 절반이다. 임의 점에 대한 VC 차원은 때때로 메모리 용량이라고도 한다.^{[en-217]간행물 Knowledge-based Training of Artificial Neural Networks for Autonomous Robot Driving}

인공신경망 모델은 수용력이라고 불리는 특성을 가지고 있으며, 그것은 신경망에서 주어진 함수 모델의 능력에 상당히 연관된다. 또한 신경망에 저장될 수 있는 어떤 정보의 총량과 정보 개념의 복잡도와 크게 연관된다.

14. 3. 수렴

모델은 비용 함수와 모델에 따라 지역 최솟값이 존재할 수 있기 때문에 단일 해법으로 일관되게 수렴하지 않을 수 있다. 둘째, 사용된 최적화 방법이 지역 최솟값에서 멀리 떨어진 곳에서 시작할 때 수렴을 보장하지 않을 수 있다. 셋째, 데이터 또는 매개변수가 충분히 클 경우 일부 방법은 비실용적이 된다.

학습이 수렴을 잘못된 방향으로 이끌 수 있는 일부 안장점(Saddle point)을 교차할 수 있다는 문제도 있다.

특정 유형의 인공 신경망(ANN) 아키텍처의 수렴 동작은 다른 아키텍처보다 더 잘 이해되고 있다. 네트워크의 너비가 무한대에 가까워지면 인공 신경망(ANN)은 학습 전반에 걸쳐 1차 테일러 전개로 잘 설명되므로 선형 모델(Linear model)의 수렴 동작을 상속한다.^{[en-218]서적 Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science Wiley 1997-04-01}^{[en-219]웹사이트 NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE 2010-04-02} 또 다른 예는 매개변수가 작을 때 인공 신경망(ANN)이 종종 낮은 주파수에서 높은 주파수로 목표 함수를 맞추는 것으로 관찰된다. 이러한 동작을 신경망의 스펙트럼 편향 또는 주파수 원리라고 한다.^{[en-220]웹사이트 Roger Bridgman's defence of neural networks 2010-07-12}^{[en-221]웹사이트 Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0}^{[en-222]간행물 Distributed hierarchical processing in the primate cerebral cortex}^{[en-223]간행물 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind BMI Press} 이 현상은 야코비 방법(Jacobi method)과 같이 잘 연구된 일부 반복적 수치 기법의 동작과 반대된다. 더 깊은 신경망은 낮은 주파수 함수에 더 편향되어 있는 것으로 관찰되었다.^{[en-224]논문 Growing pains for deep learning 2015-06-25}

인공신경망을 계산할 때는 항상 근사에 대한 몇 가지 문제에 직면하게 된다. 첫 번째로, 국지적 최솟값이 존재할 수 있다는 것이다. 이것은 신경망의 비용 함수와 모델에 좌우된다. 두 번째로, 알려진 최적화 방법은 국지적 최솟값과 멀리 떨어져 있을 때 적당한 근사를 보장하지 않을 수 있다는 점이다. 세 번째로, 상당히 큰 양의 데이터나 변수들에 대해서 일부 이미 알려진 알고리즘들은 비현실적일 수 있다. 일반적으로, 근사에 대한 이론적 보장은 실생활 데이터의 적용에서는 신뢰할 만하지 않을 수 있다고 알려져 있다.

14. 4. 일반화 및 통계

보이지 않는 예시에도 잘 일반화되는 시스템을 만드는 것이 목표인 애플리케이션은 과잉 훈련의 가능성에 직면한다. 이는 네트워크 용량이 필요한 자유 매개변수를 크게 초과할 때 복잡하거나 과도하게 명시된 시스템에서 발생한다. 과잉 훈련을 해결하는 데는 두 가지 접근 방식이 있다. 첫 번째는 교차 검증 및 유사한 기술을 사용하여 과잉 훈련의 존재 여부를 확인하고 일반화 오류를 최소화하기 위한 하이퍼파라미터를 선택하는 것이다.

두 번째는 일종의 정규화를 사용하는 것이다. 이 개념은 더 간단한 모델에 대해 더 큰 사전 확률을 선택하여 정규화를 수행할 수 있는 확률적(베이즈) 프레임워크에서 나타나지만, 통계 학습 이론에서도 '경험적 위험'과 '구조적 위험'이라는 두 가지 양을 최소화하는 것이 목표이다. 경험적 위험은 훈련 세트에 대한 오류에 해당하고, 구조적 위험은 과적합으로 인해 보이지 않는 데이터의 예측 오류에 해당한다.

평균 제곱 오차(MSE) 비용 함수를 사용하는 지도 신경망은 공식적인 통계 방법을 사용하여 훈련된 모델의 신뢰도를 결정할 수 있다. 검증 세트의 MSE는 분산에 대한 추정치로 사용할 수 있다. 이 값은 정규 분포를 가정하여 네트워크 출력의 신뢰 구간을 계산하는 데 사용할 수 있다. 이러한 방식으로 수행된 신뢰도 분석은 출력 확률 분포가 동일하게 유지되고 네트워크가 수정되지 않는 한 통계적으로 유효하다.

범주형 목표 변수에 대해 신경망(또는 구성 요소 기반 네트워크의 소프트맥스 구성 요소)의 출력 레이어에 로지스틱 함수의 일반화인 소프트맥스 활성화 함수를 할당함으로써 출력을 사후 확률로 해석할 수 있다. 이는 분류에 대한 확실성 측정을 제공하므로 분류에 유용하다.

소프트맥스 활성화 함수는 다음과 같다.

:

y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}

실제 적용에서의 목표는 신경망에 학습 되지 않은 숨겨진 예시에 대해서도 정확한 추측을 가능하게 되는 것이지만, 이를 위한 과도한 트레이닝은 문제를 일으킬 수 있다. 즉, 필요한 자유 매개변수에 대해 네트워크의 용량이 이를 엄청나게 초과했을 때에는 시스템에 복잡한 문제가 발생될 수 있다. 이러한 문제를 피하기 위한 두가지 해결책이 제시되었다.

첫 번째는 교차타당화와 비슷한 방법으로, 현재 신경망이 과도한 트레이닝이 되었는지 지속적으로 확인하고 에러를 최소화하며, 신경망 학습을 최적화 하기 위해 특수한 매개변수(Hyperparameters)를 선택하는 방법이다. 두번째 제시된 방법은 정칙화이다. 이 개념은 확률적(베이지안) 프레임워크에서 자연적으로 드러난다. 즉, 정칙화는 쉬운 신경망 모델들 중에서 더 큰 우선순위를 가지는 확률을 선택함으로써 수행될 수 있다. 하지만 통계적 학습이론에서도, 궁극적인 목표는 경험에 의한 위험성(Empirical risk)과, 구조적 위험성(Structural risk)의 두가지 값을 최소화하는 것이다. 이것들은 훈련집합 자체의 오류 및 과도한 훈련 및 학습으로 인해 숨겨졌던 자료에 대한 예고되는 오류와 크게 상관있는 것으로 알려져 있다.

평균제곱오차 비용함수를 사용하는 교사 학습된 신경망은 학습된 모델의 신뢰도를 결정하기 위해 이미 알려진 여러 가지 통계 방법을 사용할 수 있다. 예를 들어, 검증집합의 평균제곱오차는 분산을 측정할 때 사용될 수 있다. 또한 이 값이 정규분포를 따른다고 가정하면, 네트워크의 출력 값의 신뢰 구간을 계산하는데 사용될 수 있다. 출력 확률 분포는 동일하게 유지하고 네트워크가 수정되지 않기 때문에 이렇게 만든 신뢰도 분석은 통계적으로 유효하다. 범주 대상 변수를 위한 신경망 (또는 컴포넌트 기반 뉴럴 네트워크에서 softmax 성분)의 출력층에 softmax 활성화 함수, 즉 로지스틱 방정식의 일반화를 할당하여, 출력은 사후 확률로 해석 될 수 있다. 이것은 분류할 때 확실한 측정값을 주기 때문에 이에 매우 유용하다.

softmax 활성화 함수는 일반적으로 아래와 같이 나타내어진다.

:

y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}

인공신경망의 시뮬레이션을 할때, Softmax 함수는 신경망 마지막층의 분류계산을 하기 위해 구현된다. 일반적인 로그-손실(log loss) 또는 교차-엔트로피(Cross-entropy) 방식으로 학습된 신경망에서는, 다항 로지스틱 회귀분석(multinomial logistic regression)의 비선형 도함수(Derivative)를 가질 수 있다.

함수 지도 벡터와 특수 인덱스 i를 실수 값으로 보면, 도함수(Derivative) 식은 아래와 같이 인덱스를 고려해야 한다.

:

\frac{\partial}{\partial q_k}\sigma(\textbf{q}, i) = \dots =  \sigma(\textbf{q}, i)(\delta_{ik} - \sigma(\textbf{q}, k))

여기서, 크로네커 델타는 단순화를 위해 사용된다.(이것은 함수 그 자체로 표현되는 시그모이드 함수의 도함수와 비교될 수있다.)

15. 비판

wikitext

비판 내용	반박 내용
일부에서는 대한민국 국군의 병영부조리가 개선되지 않았다는 비판이 있다. 또한, 징병제라는 제도 자체에 대한 비판도 존재한다.	국방부는 병영문화 개선을 위해 지속적으로 노력하고 있으며, 병영부조리 근절 및 병사 인권 보호를 위한 여러 정책을 추진하고 있다. 또한, 징병제는 국가 안보를 위한 불가피한 선택이라는 입장이다.
국방 예산이 비효율적으로 사용된다는 비판도 있다. 군사력 강화에 필요한 예산이 충분히 투입되지 않고 있다는 지적도 존재한다.	국방부는 예산 사용의 효율성을 높이기 위해 노력하고 있으며, 군사력 강화를 위한 예산 투자를 확대하고 있다는 입장이다.
전시작전통제권 환수 지연에 대한 비판도 있다. 자주국방 역량 강화가 미흡하다는 지적이 있다.	국방부는 전시작전통제권 환수를 위해 노력하고 있으며, 자주국방 역량 강화를 위한 여러 정책을 추진하고 있다.
군사 기밀 유출 사건이 발생하여 보안에 대한 비판도 존재한다.	국방부는 보안 강화를 위해 노력하고 있으며, 재발 방지를 위한 여러 대책을 추진하고 있다.
군납비리 사건이 발생하여 군의 신뢰성에 대한 비판이 있다.	국방부는 군납비리 근절을 위해 노력하고 있으며, 관련자 처벌 및 재발 방지 대책을 추진하고 있다.

15. 1. 훈련

신경망은 로봇 공학에서 실제 작동을 위해 너무 많은 훈련 샘플이 필요하다는 비판을 받는다.^{[en-225]웹사이트 The Bitter Lesson 2024-08-07} 모든 학습 기계는 새로운 사례에 일반화할 수 있도록 기본 구조를 포착하기 위해 충분한 대표 예시가 필요하다. 훈련 예시를 무작위로 섞거나, 예시에 따라 네트워크 연결을 변경할 때 너무 큰 단계를 거치지 않는 수치 최적화 알고리즘을 사용하거나, 미니 배치로 예시를 그룹화하거나, CMAC를 위한 재귀 최소 자승 알고리즘을 도입하는 것이 해결책이 될 수 있다.^{[en-150]논문 Backpropagation Applied to Handwritten Zip Code Recognition 1989} 딘 포머로는 신경망을 사용하여 로봇 차량이 여러 유형의 도로에서 주행하도록 훈련시키고 있으며, 그의 연구는 단일 훈련 경험에서 여러 훈련 시나리오를 추정하고 시스템이 과도하게 훈련되지 않도록 과거 훈련 다양성을 보존하는 데 집중하고 있다.^{[en-226]뉴스 Google Built Its Very Own Chips to Power Its AI Bots 2016-05-18} 인공신경망은 실제 상황에 부합하는 작동을 학습하기 위해 다양한 자료가 필요하다는 비판을 받는다. 하지만 모든 학습 기계가 새로운 상황에 대처하기 위해 많은 훈련 예시를 필요로 하는 것은 당연하다. 딘 포머로의 연구에서는 여러 종류의 길을 주행할 수 있는 로봇 자동차를 훈련하기 위해 인공신경망을 사용했으며, 학습 경험으로부터 여러 학습 시나리오를 추정하고 과거 학습의 다양성을 유지하는 데 집중했다. 실제 상황의 다양한 반응에 대해 훈련하고 선택하는 문제는 인공신경망에서 일반적이다.

미국 과학 칼럼니스트 알렉산더 듀드니는 1997년에 "신경망이 매우 적은 장난감 같은 문제를 풀더라도, 계산 능력은 일반적인 문제 해결 기법을 뛰어넘을 수 있다"고 언급했다.

15. 2. 이론

인공 신경망(ANN)의 핵심 주장은 정보 처리와 관련하여 새롭고 강력한 일반 원칙을 구현한다는 것이다. 이러한 원칙은 명확하게 정의되어 있지 않으며, 인공 신경망에서 이러한 원칙은 네트워크 자체에서 창발한다고 주장되는 경우가 많다. 이렇게 함으로써 단순한 통계적 연관(인공 신경망의 기본 기능)을 학습 또는 인식으로 설명할 수 있다. 1997년에, 전직 ''사이언티픽 아메리칸'' 칼럼니스트였던 알렉산더 듀드니(Alexander Dewdney)는 그 결과로 인공 신경망이 "무에서 유를 창조하는 듯한 특성을 지니고 있으며, 이러한 특성은 게으름과 이러한 컴퓨터 시스템이 얼마나 우수한지에 대한 호기심 부족의 독특한 분위기를 풍긴다"고 논평했다. 그는 "인간의 손(또는 정신)이 개입하지 않으며, 해법은 마치 마법처럼 발견되고, 누구도 무엇인가를 배우지 못한 듯하다"라고 덧붙였다.^{[en-227]웹사이트 Scaling Learning Algorithms towards AI 2022-07-06} 듀드니의 주장에 대한 한 가지 반론은 인공 신경망이 자율 비행 항공기^{[en-228]논문 A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation}에서부터 신용 카드 사기 감지, 바둑 게임 마스터에 이르기까지 복잡하고 다양한 작업을 처리하는 데 성공적으로 사용되어 왔다는 것이다.

기술 작가인 로저 브리지먼(Roger Bridgman)은 신경망이 어떻게 작동하는지 이해하지 못한 채 성공적인 네트워크를 만들 수 있다는 이유로 비판받는다고 논평했다. 즉, 신경망의 동작을 포착하는 숫자 묶음은 "불투명하고 읽을 수 없는 표... 과학적 자원으로서의 가치가 없을 것"이기 때문이라는 것이다. 그는 신경망을 고안하는 대부분의 사람들은 단지 훌륭한 엔지니어가 되려고 노력할 뿐이며, 유용한 기계가 읽을 수 없는 표는 여전히 가치가 있다고 주장했다.^{[en-229]간행물}

인공 신경망이 학습한 내용을 분석하는 것이 어렵다는 것은 사실이지만, 생물학적 신경망이 학습한 내용을 분석하는 것보다 훨씬 쉽다. 더욱이, 최근 설명 가능한 AI에 대한 강조는 학습된 신경망을 시각화하고 설명하기 위한 방법, 특히 어텐션 메커니즘에 기반한 방법 개발에 기여해 왔다. 또한, 신경망 학습 알고리즘 탐구에 관여하는 연구자들은 학습 기계가 성공할 수 있게 하는 일반적인 원칙들을 점차 발견하고 있다. 예를 들어, 벵지오와 르쿤(Bengio and LeCun)(2007)은 국소 학습 대 비국소 학습, 얕은 구조 대 깊은 구조에 관한 논문을 발표했다.^{[en-230]영어 논문 Addressing bias in big data and AI for health care: A call for open science 2021-10}

생물학적 뇌는 뇌 해부학에서 보고된 바와 같이 얕은 회로와 깊은 회로를 모두 사용하며^{[en-231]논문 Failing at Face Value: The Effect of Biased Facial Recognition Technology on Racial Discrimination in Criminal Justice 2022-10-27}, 매우 다양한 불변성을 보인다. 웽(Weng)^{[en-232]논문 Gender Bias in Hiring: An Analysis of the Impact of Amazon's Recruiting Algorithm 2023-12-09}은 뇌가 주로 신호 통계에 따라 스스로 연결되며, 따라서 직렬 캐스케이드는 모든 주요 통계적 종속성을 포착할 수 없다고 주장했다.

알렉산더 듀드니(A.K.Dewdney)의 또다른 주장은 신경망은 비행기의 자동운전모드^{[ko-41]웹사이트 NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE 2013-11-20} 또는 신용카드 사기 탐지 같은 여러 가지 복잡하고 다양한 문제를 효과적이고 성공적으로 해결해왔다는 것이다.

기술 집필자 로저 브리드만(Roger Bridgman)은 듀드니의 신경망에 대한 주장에 대해 신경망은 과장된 광고를 하고 있으며, 어떻게 동작하는지 이해하지 않고도 성공적인 네트워크를 만들어 낼 수 있다고 말하는 것은 불투명하고 이해할 수 없는 것이며 과학적 측면에서 가치가 없는 것이라고 비판했다. 그는 인공신경망을 나쁜 학문이라고 비판하는 것은 단지 남들이 보는 앞에서 그들이 이것을 이해하지 못하더라도 훌륭한 기술자들인 것처럼 보이기 위함이며, 불투명하고 이해할 수 없는 것이라도 유용한 기계가 될 수있다면 그것은 여전히 우리에게 가치있는 것이고 필요한 것이라고 주장했다.^{[ko-42]웹인용 Roger Bridgman's defence of neural networks 2015-04-30}

비록 인공 신경망을 배우고 이해하고 분석하는 것이 매우 힘든 일이라는 것은 사실이지만, 실제 생물에서의 신경망을 배우고 이해하여 분석해서 적용하는 것보다는 훨씬 쉬운 일일 것이다. 게다가, 신경망을 구현하는 학습 알고리즘을 연구하는 연구자들은 점진적으로 기계학습을 성공적으로 하게 할 수 있는 신경 유전적 원리를 발견해 내는데 성공하고 있다. 예를 들어, 벤지오(Bengio)와 레쿤(LeCun)이 2007년에 쓴 논문에서는, 지역 vs 비지역 학습(local vs non-local learning)과 얕은 vs 깊은 구조(shallow vs deep architecture)에 대해서 다루고 있다^{[ko-43]웹인용 보관된 사본 2015-04-30}.

15. 3. 하드웨어

크고 효과적인 신경망은 상당한 컴퓨팅 자원을 필요로 한다. 뇌는 뉴런의 그래프를 통해 신호를 처리하는 작업에 맞춰진 하드웨어를 가지고 있지만, 폰 노이만 구조에서 단순화된 뉴런조차 시뮬레이션하는 데에는 방대한 양의 메모리와 저장 공간이 필요할 수 있다. 또한, 설계자는 종종 이러한 연결과 관련 뉴런을 통해 신호를 전송해야 하며, 이는 막대한 CPU 성능과 시간을 필요로 한다.

일부에서는 21세기 신경망의 부활이 주로 하드웨어 발전 덕분이라고 주장한다. 1991년부터 2015년까지 컴퓨팅 성능, 특히 GPGPU ( GPU )를 통해 제공되는 컴퓨팅 성능은 약 백만 배 증가하여 표준 역전파 알고리즘으로 이전보다 몇 층 더 깊은 네트워크를 훈련하는 것이 가능해졌다. FPGA 및 GPU와 같은 가속기를 사용하면 훈련 시간을 몇 달에서 며칠로 줄일 수 있다.

뉴로모픽 공학 또는 물리적 신경망은 회로에서 신경망을 직접 구현하기 위해 비 폰 노이만 칩을 구성하여 하드웨어 문제를 직접 해결한다. 신경망 처리에 최적화된 또 다른 유형의 칩을 텐서 처리 장치(Tensor Processing Unit, TPU)라고 한다.

크고 효과적인 인공신경망 소프트웨어를 구현하기 위해서는 상당한 프로세싱 기법과 저장 자원이 필요하다. 우리의 뇌는 신경 그래프를 통한 신경전달 프로세싱 임무에 최적화된 하드웨어를 가지고 있다. 우리가 가장 간단하게 시뮬레이션 할 수 있는 폰 노이만 기술 조차도 신경망 디자이너로 하여금 뇌와 같은 신경 그래프를 구축하기 위해 수백, 수천만 개의 데이터베이스 행을 채우도록 하고 있다. 이는 엄청난 양의 컴퓨터 메모리와 하드디스크 공간을 소비하게 한다. 게다가, 신경망 시스템의 디자이너는 이런 엄청난 신경 연결과 뉴런들을 통해 뇌와 같은 신호 전달을 시뮬레이션 할 수 있어야 한다. 이것은 일반적인 CPU의 처리능력과 시간으로는 불가능한 양일 정도이다. 하지만, 신경망은 가끔 효과적인 프로그램을 만들어 낼 수 있게 해주고 비용적 측면에서도 효율적이고 고려할만한 정도의 효과를 내 줄 때가 있다. 또한 컴퓨터의 계산능력은 무어의 법칙에 따라 지속적으로 크게 증가하고 있으며, 이는 새로운 임무를 효과적으로 달성하는데 기여하고 있다. 또한 신경모방 공학에서는 처음부터 신경망을 구현하기 위해 설계된 회로(비 폰 - 노이만 칩)를 구성하여, 직접적으로 하드웨어적 어려움을 해결하기 위해 노력하고 있다.

15. 4. 실제 반례

인공 신경망(ANN) 학습 내용을 분석하는 것은 생물학적 신경망 학습 내용 분석보다 훨씬 쉽다.^{[en-236]논문 Generative AI and ChatGPT 2023-07-03} 신경망 학습 알고리즘 연구자들은 학습 기계가 성공할 수 있도록 하는 일반적인 원리를 밝혀내고 있다. 예를 들어, 국소 학습 대 비국소 학습, 얕은 구조 대 깊은 구조 등이 있다.^{[en-236]논문 Generative AI and ChatGPT 2023-07-03}

알렉산더 듀드니(A.K.Dewdney)는 신경망이 비행기 자동운전 모드나 신용카드 사기 탐지와 같은 복잡한 문제를 성공적으로 해결해 왔다고 주장했다.^{[ko-41]웹사이트 NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE 2013-11-20} 하지만 기술 작가 로저 브리지먼(Roger Bridgman)은 듀드니의 주장에 대해 "신경망은 작동 방식을 이해하지 못하고도 성공적인 네트워크를 만들 수 있다고 과장 광고를 하고 있으며, 이는 불투명하고 과학적 가치가 없다"고 비판했다.

이에 대해 듀드니는 "이는 사람들이 신경망을 이해하지 못하기 때문에 비판하는 것"이라고 반박했다. 그는 불투명하더라도 유용한 기계는 여전히 가치가 있다고 주장했다.^{[ko-42]웹인용 Roger Bridgman's defence of neural networks 2015-04-30}

인공 신경망을 배우고 분석하는 것이 어렵지만, 생물 신경망을 분석하는 것보다는 쉬울 수 있다. 또한, 신경망 학습 알고리즘 연구자들은 기계 학습을 성공적으로 만드는 신경 유전적 원리를 발견하고 있다. 벤지오(Bengio)와 레쿤(LeCun)은 2007년 논문에서 지역 학습과 비지역 학습, 얕은 구조와 깊은 구조를 다루었다.^{[ko-43]웹인용 보관된 사본 2015-04-30}

15. 5. 하이브리드 접근 방식

하이브리드 모델(신경망과 상징적 접근 방식을 결합)을 지지하는 사람들은 이러한 혼합이 인간 마음의 메커니즘을 더 잘 포착할 수 있다고 말한다. 일부 다른 분석가들은 신경망과 다른 분야에 대한 혼합적 모델을 지지한다.(예를 들면 기호적 접근과 인공신경망의 결합) 이러한 두 가지 접근방식의 내부 혼합은 사람의 내적 동작에 대한 메커니즘을 조금 더 잘 잡아 낼 수 있을 것이라 생각하기 때문이다.^{[ko-44]간행물}^{[ko-45]저널 A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation}

15. 6. 데이터셋 편향

신경망은 훈련에 사용되는 데이터의 품질에 의존적이므로, 불균형적인 대표성을 가진 저품질 데이터는 모델이 사회적 편견을 학습하고 영속화시키는 결과를 초래할 수 있다. 이러한 편향은 특히 특정 인종, 성별 또는 기타 속성에 대한 데이터 부족으로 인해 훈련 데이터가 불균형적일 수 있는 실제 시나리오에 인공 신경망(ANNs)이 통합될 때 더욱 중요해진다. 이러한 불균형은 모델이 과소 대표되는 그룹에 대한 부적절한 표현과 이해를 초래하여, 얼굴 인식, 채용 과정 및 법 집행과 같은 응용 분야에서 사회적 불평등을 악화시키는 차별적 결과를 초래할 수 있다. 예를 들어, 2018년에 아마존은 해당 분야에 남성 근로자의 수가 더 많기 때문에 소프트웨어 엔지니어링 직종에서 여성을 선호하는 모델로 인해 채용 도구를 폐기해야 했다. 이 프로그램은 "여성"이라는 단어나 여성 대학의 이름이 있는 모든 이력서를 불이익을 주었다. 그러나 합성 데이터를 사용하면 데이터셋 편향을 줄이고 데이터셋의 표현을 늘리는 데 도움이 될 수 있다.

16. 갤러리

17. 최근 발전 및 향후 방향

인공 신경망(ANN)은 복잡한 시스템 모델링, 대규모 데이터 세트 처리, 다양한 응용 분야 적응 능력에서 큰 발전을 이루었다. 지난 수십 년 동안 이미지 처리, 음성 인식, 자연어 처리, 금융, 의학 등 다양한 분야에서 응용되고 있다.^{[ko-1]저널 A Logical Calculus of Ideas Immanent in Nervous Activity}

17. 1. 영상 처리

영상 처리 분야에서 ANN은 이미지 분류, 객체 인식, 이미지 분할과 같은 작업에 사용된다. 예를 들어, 심층 합성곱 신경망(CNN)은 손으로 쓴 숫자 인식에서 중요한 역할을 해왔으며, 최첨단 성능을 달성했다. 이는 인공 신경망이 복잡한 시각 정보를 효과적으로 처리하고 해석하는 능력을 보여주며, 자동화된 감시에서 의료 영상에 이르기까지 다양한 분야에서 발전을 이끌고 있다.

17. 2. 음성 인식

인공신경망(ANN)은 음성 신호를 모델링하여 화자 식별 및 음성-텍스트 변환과 같은 작업에 사용된다. 심층 신경망 아키텍처는 대규모 어휘 연속 음성 인식에서 기존 기술을 능가하는 상당한 개선을 가져왔다. 이러한 발전으로 더욱 정확하고 효율적인 음성 작동 시스템 개발이 가능해졌으며, 기술 제품의 사용자 인터페이스가 향상되었다.

17. 3. 자연어 처리

자연어 처리에서 인공 신경망(ANN)은 텍스트 분류, 감성 분석 및 기계 번역과 같은 작업에 사용된다. 인공 신경망은 언어 간 정확한 번역, 텍스트 데이터의 맥락 및 감성 이해, 콘텐츠 기반 텍스트 분류를 할 수 있는 모델 개발을 가능하게 했다. 이는 자동화된 고객 서비스, 콘텐츠 조정 및 언어 이해 기술에 영향을 미친다.

트랜스포머는 셀프 어텐션(Self-Attention) 메커니즘을 이용한 모델이다.^{[ja-16]논문 Attention Is All You Need 2017-12-05} 순환 신경망의 대체재로 고안되었다. 기존의 자연어 처리용 모델에 비해 계산량이 적고 구조도 단순하기 때문에 자연어 처리에 많이 사용된다.^{[ja-16]논문 Attention Is All You Need 2017-12-05}

17. 4. 제어 시스템

제어 시스템 분야에서 인공 신경망(인공신경망)은 시스템 식별, 제어 설계 및 최적화와 같은 작업을 위해 동적 시스템을 모델링하는 데 사용된다. 예를 들어, 심층 피드포워드 신경망은 시스템 식별 및 제어 응용 분야에서 중요하다.

17. 5. 금융

인공신경망은 주식 시장 예측 및 신용 평가에 사용된다. 투자에서 인공신경망은 방대한 양의 금융 데이터를 처리하고 복잡한 패턴을 인식하며 주식 시장 동향을 예측하여 투자자와 위험 관리자가 정보에 입각한 결정을 내리는 데 도움을 줄 수 있다. 신용 평가에서 인공신경망은 데이터 기반의 개인화된 신용도 평가를 제공하여 부도 예측의 정확도를 높이고 대출 프로세스를 자동화한다. 인공신경망은 고품질 데이터와 세심한 조정이 필요하며, '블랙 박스' 특성으로 인해 해석에 어려움을 겪을 수 있다. 그럼에도 불구하고 지속적인 발전을 통해 인공신경망이 금융 분야에서 계속해서 중요한 역할을 수행하며 귀중한 통찰력을 제공하고 위험 관리 전략을 강화할 것으로 보인다.

17. 6. 의학

인공신경망(ANN)은 방대한 의료 데이터 세트를 처리하고 분석할 수 있다. 이는 특히 복잡한 의료 영상을 해석하여 조기 질병 발견을 개선하고, 개인 맞춤형 치료 계획을 위한 환자 결과를 예측함으로써 진단 정확도를 향상시킨다. 신약 개발에서 인공신경망은 잠재적인 약물 후보 물질의 식별을 가속화하고 그 효능과 안전성을 예측하여 개발 시간과 비용을 크게 줄인다. 또한 개인 맞춤형 의약 및 의료 데이터 분석에 적용하여 맞춤형 치료와 효율적인 환자 관리을 가능하게 한다. 현재 진행 중인 연구는 데이터 개인 정보 보호 및 모델 해석 가능성과 같은 남은 과제를 해결하고 의학 분야에서 인공신경망 응용 분야를 확장하는 데 목표를 두고 있다.

17. 7. 콘텐츠 제작

생성적 적대 신경망(GAN)과 트랜스포머와 같은 인공 신경망(ANN)은 수많은 산업에서 콘텐츠 제작에 사용된다. 이는 딥 러닝 모델이 방대한 데이터 세트에서 예술가나 음악가의 스타일을 학습하고 완전히 새로운 미술 작품 및 음악 작곡을 생성할 수 있기 때문이다. 예를 들어, DALL-E는 인터넷에서 6억 5천만 쌍의 이미지와 텍스트로 학습된 심층 신경망으로 사용자가 입력한 텍스트를 기반으로 미술 작품을 만들 수 있다. 음악 분야에서는 AIVA 및 Jukedeck와 같은 회사를 통해 트랜스포머가 광고 및 다큐멘터리용 오리지널 음악을 만드는 데 사용된다. 마케팅 산업에서는 생성 모델이 소비자에게 개인화된 광고를 만드는 데 사용된다. 또한 주요 영화 회사는 워너 브라더스(Warner Bros.)와 2020년에 설립된 기술 회사 시네리틱(Cinelytic) 간의 파트너십과 같이 영화의 재정적 성공을 분석하기 위해 기술 회사와 제휴하고 있다. 더욱이 신경망은 비디오 게임 제작에서 활용되고 있으며, 여기서 비플레이어 캐릭터(NPC)는 현재 게임에 있는 모든 캐릭터를 기반으로 결정을 내릴 수 있다.

셀프 어텐션(Self-Attention) 메커니즘을 이용한 모델인 트랜스포머는 순환 신경망의 대체재로 고안되었다. 기존의 자연어 처리용 모델에 비해 계산량이 적고 구조도 단순하기 때문에 자연어 처리에 많이 사용된다.^{[ja-16]논문 Attention Is All You Need 2017-12-05}

18. 참고 문헌

H. K. D. H. 바데시아(Bhadeshia)의 1999년 논문 "재료 과학에서의 신경망" (ISIJ International, 39, 966–979)
크리스토퍼 M. 비숍(Christopher M. Bishop)의 1995년 저서 "패턴 인식을 위한 신경망" (클래런던 프레스, ISBN 978-0-19-853849-3)
크리스티안 보르겔트(Christian Borgelt)의 2003년 저서 "뉴로-퍼지 시스템: 인공 신경망의 기초에서 퍼지 시스템과의 결합까지" (Vieweg, ISBN 978-3-528-25265-6)
G.V. 사이벤코(Cybenko)의 2006년 저서 "제어, 신호 및 시스템 수학"의 챕터 "시그모이드 함수의 중첩에 의한 근사" (스프링거 인터내셔널, 편집: 얀 H. 반 슈펜, pp. 303–314, PDF)
A. K. 듀드니(Dewdney)의 1997년 저서 "네, 우리는 중성자가 없습니다: 나쁜 과학의 우여곡절을 통해 눈을 뜨는 여행" (와일리, 뉴욕, ISBN 978-0-471-10806-1)
리처드 O. 두다(Duda), 피터 엘리엇 하트(Peter Elliot Hart), 데이비드 G. 스토크(David G. Stork)의 2001년 저서 "패턴 분류" (와일리, 2판, ISBN 978-0-471-05669-0)
M. 에그몬트-페테르센(Egmont-Petersen), D. 드 리더(de Ridder), H. 한델스(Handels)의 2002년 논문 "신경망을 이용한 영상 처리 – 리뷰" (패턴 인식, 35, 2279–2301)
S. 팔먼(Fahlman)과 C. 르비에르(Lebiere)의 1991년 논문 "캐스케이드-상관 학습 구조" (PDF)
케빈 거니(Kevin Gurney)의 1997년 저서 "신경망 소개" (UCL 프레스, ISBN 978-1-85728-673-1)
사이먼 S. 헤이킨(Simon S. Haykin)의 1999년 저서 "신경망: 포괄적인 기초" (프렌티스 홀, ISBN 978-0-13-273350-2)
J. 헤르츠(Hertz), 리처드 G. 팔머(Richard G. Palmer), 안데르스 S. 크로(Anders S. Krogh)의 1991년 저서 "신경 연산 이론 소개" (애디슨-웨슬리, ISBN 978-0-201-51560-2)
2003년 저서 "정보 이론, 추론 및 학습 알고리즘" (케임브리지 대학교 출판부, ISBN 978-0-521-64298-9)
루돌프 크루제(Rudolf Kruse), 크리스티안 보르겔트(Christian Borgelt), F. 클라원(Klawonn), 크리스티안 모웨스(Christian Moewes), 마티아스 슈타인브레허(Matthias Steinbrecher), 파스칼 헬트(Pascal Held)의 2013년 저서 "계산 지능: 방법론적 소개" (스프링거, ISBN 978-1-4471-5012-1)
자넷 로렌스(Jeanette Lawrence)의 1994년 저서 "신경망 소개: 설계, 이론 및 응용" (캘리포니아 과학 소프트웨어, ISBN 978-1-883157-00-5)
티모시 매스터스(Timothy Masters)의 1994년 저서 "신경망을 이용한 신호 및 영상 처리: C++ 소스북" (J. 와일리, ISBN 978-0-471-04963-0)
해럴드 마우러(Harald Maurer)의 2021년 저서 "인지 과학: 현대 연결주의의 인지 신경 구조에서 통합 동기화 메커니즘" (CRC 프레스, ISBN 978-1-351-04352-6)
브라이언 D. 리플리(Brian D. Ripley)의 2007년 저서 "패턴 인식 및 신경망" (케임브리지 대학교 출판부, ISBN 978-0-521-71770-0)
H.T. 시겔만(Siegelmann)과 에두아르도 D. 손택(Eduardo D. Sontag)의 1994년 논문 "신경망을 통한 아날로그 계산" (이론 컴퓨터 과학, 131, 331–360)
머레이 스미스(Murray Smith)의 1993년 저서 "통계 모델링을 위한 신경망" (반 노스트랜드 라인홀드, ISBN 978-0-442-01310-3)
필립 D. 와서만(Philip D. Wasserman)의 1993년 저서 "신경 컴퓨팅의 고급 방법" (반 노스트랜드 라인홀드, ISBN 978-0-442-00461-3)
핼시 윌슨(Halsey Wilson)의 2018년 저서 "인공 지능" (그레이 하우스 출판, ISBN 978-1-68217-867-6)

참조

_[en-1] 웹사이트 Explained: Neural networks https://news.mit.edu[...] MIT News Office 2017-04-14
_[en-2] 서적 Comprehensive Biomedical Physics https://www.scienced[...] Elsevier 2014
_[en-3] 서적 Pattern Recognition and Machine Learning Springer 2006-08-17
_[en-4] 서적 The nature of statistical learning theory Springer 1998
_[en-5] 서적 Deep Learning http://www.deeplearn[...] MIT Press
_[en-6] 서적 Neural Networks for Babies Sourcebooks
_[en-7] 기타 "A List of Writings Relating to the Method of Least Squares"
_[en-8] 간행물 Gauss and the Invention of Least Squares
_[en-9] 서적 Linear Algebra With Applications Prentice Hall
_[en-10] 서적 The History of Statistics: The Measurement of Uncertainty before 1900 https://archive.org/[...] Harvard
_[en-11] 뉴스 Representation of Events in Nerve Nets and Finite Automata https://www.degruyte[...] Princeton University Press
_[en-12] 서적 The Organization of Behavior https://books.google[...] Wiley
_[en-13] 간행물 Simulation of Self-Organizing Systems by Digital Computer
_[en-14] 간행물 Tests on a cell assembly theory of the action of the brain, using a large digital computer
_[en-15] 기타 Neural Networks and Learning Machines
_[en-16] 간행물 The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain
_[en-17] 서적 Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences https://books.google[...]
_[en-18] 간행물 The Perceptron—a perceiving and recognizing automaton Cornell Aeronautical Laboratory
_[en-19] 간행물 A Sociological Study of the Official History of the Perceptrons Controversy
_[en-20] 서적 Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo
_[en-21] 서적 Artificial Intelligence A Modern Approach https://people.engr.[...] Pearson Education
_[en-22] 서적 Principles of Neurodynamics Spartan, New York
_[en-23] 서적 Cybernetics and Forecasting Techniques https://books.google[...] American Elsevier Publishing Co.
_[en-24] 간행물 Heuristic self-organization in problems of engineering cybernetics https://linkinghub.e[...] 1970-03
_[en-25] 간행물 Polynomial theory of complex systems http://gmdh.net/arti[...] 1971
_[en-26] arXiv Annotated History of Modern AI and Deep Learning 2022
_[en-27] 간행물 A Stochastic Approximation Method
_[en-28] 간행물 A theory of adaptive pattern classifier 1967
_[en-29] 간행물 Visual feature extraction by a multilayered network of analog threshold elements 1969
_[en-30] 간행물 Neural network with unbounded activation functions is universal approximator
_[en-31] arXiv Searching for Activation Functions 2017-10-16
_[en-32] 서적 Perceptrons: An Introduction to Computational Geometry https://books.google[...] MIT Press
_[en-33] 기타 "The influence of pattern similarity and transfer learning on the base perceptron training" (original in Croatian)
_[en-34] 기타 "Reminder of the first paper on transfer learning in neural networks, 1976"
_[en-35] 간행물 Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron
_[en-36] 간행물 Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position
_[en-37] 서적 The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) https://books.google[...] Open court publishing Company 1920
_[en-38] 간행물 Gradient theory of optimal flight paths
_[en-39] Masters The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors University of Helsinki
_[en-40] 간행물 Taylor expansion of the accumulated rounding error
_[en-41] 기타 On the computation of derivatives
_[en-42] 서적 System modeling and optimization Springer
_[en-43] 서적 Talking Nets: An Oral History of Neural Networks https://direct.mit.e[...] The MIT Press 2000
_[en-44] 서적 The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting John Wiley & Sons
_[en-45] 웹사이트 Who Invented Backpropagation? https://people.idsia[...] IDSIA, Switzerland 2014-10-25
_[en-46] 간행물 Learning representations by back-propagating errors https://www.nature.c[...] 1986-10
_[en-47] 간행물 Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position https://www.scienced[...] 1982-01-01
_[en-48] 학술회의 Phoneme Recognition Using Time-Delay Neural Networks https://isl.anthropo[...] 1987-12
_[en-49] 간행물 'Phoneme Recognition Using Time-Delay Neural Networks' http://www.inf.ufrgs[...] 1989-03
_[en-50] 간행물 Shift-invariant pattern recognition neural network and its optical architecture https://drive.google[...] 1988
_[en-51] 논문 "Backpropagation Applied to Handwritten Zip Code Recognition" 1989
_[en-52] 학술지 Parallel distributed processing model with local space-invariant interconnections and its optical architecture https://drive.google[...] 1990
_[en-53] 학술지 Image processing of human corneal endothelium based on a learning network https://drive.google[...] 1991
_[en-54] 학술지 Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network https://drive.google[...] 1994
_[en-55] 학술지 Gradient-based learning applied to document recognition http://yann.lecun.co[...] 2016-10-07
_[en-56] 논문 "Predicting the secondary structure of globular proteins using neural network models." 1988
_[en-57] 논문 "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." 1988
_[en-58] 논문 "Prediction of protein secondary structure at better than 70% accuracy." 1993
_[en-59] 학술지 Learning Patterns and Pattern Sequences by Self-Organizing Nets of Threshold Elements https://ieeexplore.i[...] 1972-11
_[en-60] 학술지 Neural networks and physical systems with emergent collective computational abilities 1982
_[en-61] 학술지 The Importance of Cajal's and Lorente de Nó's Neuroscience to the Birth of Cybernetics http://journals.sage[...] 2023-07-05
_[en-62] 웹사이트 reverberating circuit https://www.oxfordre[...] 2024-07-27
_[en-63] 학술지 A logical calculus of the ideas immanent in nervous activity http://link.springer[...] 1943-12
_[en-64] 서적 "A self-learning system using secondary reinforcement" North-Holland 1982
_[en-65] 간행물 "Neuro genetic agents and structural theory of self-reinforcement learning systems" https://web.cs.umass[...] CMPSCI Technical Report 95-107, University of Massachusetts at Amherst 1995
_[en-66] 논문 "Feeling and thinking: Preferences need no inferences" 1980
_[en-67] 논문 "Thoughts on the relations between emotion and cognition" 1982
_[en-68] 간행물 "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981" https://core.ac.uk/d[...] 2014
_[en-69] 학술지 Neural Sequence Chunkers https://people.idsia[...] 1991-04
_[en-70] 학술지 Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991) https://sferics.idsi[...]
_[en-71] 서적 Habilitation thesis: System modeling and optimization https://sferics.idsi[...]
_[en-72] 간행물 Untersuchungen zu dynamischen neuronalen Netzen https://web.archive.[...] Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber 1991
_[en-73] 서적 A Field Guide to Dynamical Recurrent Networks John Wiley & Sons 2017-06-26
_[en-74] Q
_[en-75] 학술지 Long Short-Term Memory 1997-11-01
_[en-76] 서적 9th International Conference on Artificial Neural Networks: ICANN '99
_[en-77] 학술지 A learning algorithm for boltzmann machines https://www.scienced[...] 1985-01-01
_[en-78] 서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations MIT Press
_[en-79] 학술지 The Helmholtz machine. 1995
_[en-80] 학술지 The wake-sleep algorithm for unsupervised neural networks 1995-05-26
_[en-81] 웹사이트 2012 Kurzweil AI Interview http://www.kurzweila[...] 2018-08-31
_[en-82] 웹사이트 How bio-inspired deep learning keeps winning competitions http://www.kurzweila[...] 2017-06-16
_[en-83] 학술지 Deep, Big, Simple Neural Nets for Handwritten Digit Recognition 2010-09-21
_[en-84] 학술지 Flexible, High Performance Convolutional Neural Networks for Image Classification http://ijcai.org/pap[...] 2017-06-13
_[en-85] 학술지 Deep Learning in Neural Networks: An Overview
_[en-86] 서적 Advances in Neural Information Processing Systems 25 http://papers.nips.c[...] Curran Associates, Inc. 2017-06-13
_[en-87] 서적 Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013 2013
_[en-88] 서적 2012 IEEE Conference on Computer Vision and Pattern Recognition
_[en-89] 학술지 ImageNet Classification with Deep Convolutional Neural Networks https://www.cs.toron[...] 2017-05-24
_[en-90] arXiv Very Deep Convolution Networks for Large Scale Image Recognition
_[en-91] 학술지 Going deeper with convolutions https://static.googl[...] 2015
_[en-92] arXiv Building High-level Features Using Large Scale Unsupervised Learning
_[en-93] 학술대회 Generative Adversarial Networks https://papers.nips.[...] 2019-08-20
_[en-94] 학술대회 A possibility for implementing curiosity and boredom in model-building neural controllers MIT Press/Bradford Books 1991
_[en-95] 학술지 Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991) 2020
_[en-96] 웹사이트 GAN 2.0: NVIDIA's Hyperrealistic Face Generator https://syncedreview[...] 2019-10-03
_[en-97] arXiv Progressive Growing of GANs for Improved Quality, Stability, and Variation 2018-02-26
_[en-98] 웹사이트 Prepare, Don't Panic: Synthetic Media and Deepfakes https://lab.witness.[...] witness.org 2020-11-25
_[en-99] 학술지 Deep Unsupervised Learning using Nonequilibrium Thermodynamics http://proceedings.m[...] PMLR 2015-06-01
_[en-100] Citation Very Deep Convolutional Networks for Large-Scale Image Recognition 2015-04-10
_[en-101] arXiv Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
_[en-102] conference Deep Residual Learning for Image Recognition 2015-12-10
_[en-103] arXiv Highway Networks 2015-05-02
_[en-104] conference Deep Residual Learning for Image Recognition https://ieeexplore.i[...] IEEE 2016
_[en-105] 웹사이트 Microsoft researchers win ImageNet computer vision challenge https://blogs.micros[...] 2015-12-10
_[en-106] arXiv Attention Is All You Need 2017-06-12
_[en-107] journal Learning to control fast-weight memories: an alternative to recurrent nets. https://archive.org/[...] 1992
_[en-108] conference Transformers are RNNs: Fast autoregressive Transformers with linear attention https://paperswithco[...] PMLR 2020
_[en-109] conference Linear Transformers Are Secretly Fast Weight Programmers Springer 2021
_[en-110] book Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations
_[en-111] book Simulation neuronaler Netze Addison-Wesley 2003
_[en-112] book Artificial intelligence Addison-Wesley Pub. Co
_[en-113] journal Application of Artificial Intelligence to the Management of Urological Cancer
_[en-114] journal An artificial neural network approach to rainfall-runoff modelling
_[en-115] 웹사이트 The Machine Learning Dictionary http://www.cse.unsw.[...] 2009-11-04
_[en-116] journal Flexible, High Performance Convolutional Neural Networks for Image Classification https://people.idsia[...] 2022-07-07
_[en-117] book Simulation Neuronaler Netze Addison-Wesley
_[en-118] journal Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction http://www.ijcse.com[...] 2019-08-21
_[en-119] book Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies The MIT Press 2020
_[en-120] arXiv Forget the Learning Rate, Decay Loss 2019-04-26
_[en-121] book 2009 International Conference on Computational Intelligence and Natural Computing 2009-06-01
_[en-122] journal Extreme learning machine: theory and applications
_[en-123] journal The no-prop algorithm: A new learning algorithm for multilayer neural networks
_[en-124] arXiv Training recurrent networks without backtracking
_[en-125] journal A Practical Guide to Training Restricted Boltzmann Machines https://www.research[...] 2017-06-27
_[en-126] 간행물 ESANN 2009
_[en-127] book Introduction to machine learning https://www.wolfram.[...] Wolfram Media 2023-03-22
_[en-128] book Introduction to machine learning https://www.wolfram.[...] Wolfram Media 2023-03-22
_[en-129] book Introduction to Machine Learning https://www.wolfram.[...] Wolfram Media Inc 2022-07-28
_[en-130] journal Metaheuristic design of feedforward neural networks: A review of two decades of research 2017-04-01
_[en-131] conference Genetic reinforcement learning for neural networks https://archive.org/[...] IEEE 1991-07-01
_[en-132] journal Process control via artificial neural networks and reinforcement learning
_[en-133] book Neuro-dynamic programming https://papers.nips.[...] Athena Scientific 2017-06-17
_[en-134] journal Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands
_[en-135] conference Neuro-dynamic programming for the efficient management of reservoir networks http://www.mssanz.or[...] Modelling and Simulation Society of Australia and New Zealand 2013-07-29
_[en-136] conference Genetic algorithms and neuro-dynamic programming: application to water supply networks IEEE
_[en-137] book Optimization in Medicine
_[en-138] 간행물 "A self-learning system using secondary reinforcement" North Holland 1982
_[en-139] 간행물 "[https://core.ac.uk/download/pdf/81973924.pdf Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981] " 2014
_[en-140] journal Self-learning agents: A connectionist theory of emotion based on crossbar value judgment
_[en-141] arXiv Evolution Strategies as a Scalable Alternative to Reinforcement Learning 2017-09-07
_[en-142] arXiv Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning 2018-04-20
_[en-143] 뉴스 Artificial intelligence can 'evolve' to solve problems https://www.science.[...] 2018-02-07
_[en-144] book Stochastic Models of Neural Networks IOS Press
_[en-145] magazine Hands-On Bayesian Neural Networks—A Tutorial for Deep Learning Users 2022
_[en-146] conference A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management http://www.nt.ntnu.n[...] IFAC 2011-12-30
_[en-147] book Applied Soft Computing Technologies: The Challenge of Complexity http://www.gene-expr[...] Springer-Verlag 2012-10-08
_[en-148] conference An improved PSO-based ANN with simulated annealing technique http://www.dice.ucl.[...] Elsevier 2005-07-01
_[en-151] 논문 Continuous CMAC-QRLS and its systolic array http://www-control.e[...] 2019-01-30
_[en-152] 논문 Backpropagation Applied to Handwritten Zip Code Recognition 1989
_[en-153] 웹사이트 Slides on Deep Learning https://indico.cern.[...] 2016
_[en-154] 논문 Long Short-Term Memory 1997-11-01
_[en-155] 웹사이트 Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling https://static.googl[...] 2014
_[en-156] arXiv Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition 2014-10-15
_[en-157] 논문 TTS synthesis with bidirectional LSTM based Recurrent Neural Networks https://www.research[...] 2017-06-13
_[en-158] 논문 Deep Learning
_[en-159] 웹사이트 Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis https://static.googl[...] ICASSP 2017-06-27
_[en-160] 논문 Photo-Real Talking Head with Deep Bidirectional LSTM https://www.microsof[...] 2017-06-27
_[en-161] arXiv Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 2017-12-05
_[en-162] 논문 Tunability: Importance of Hyperparameters of Machine Learning Algorithms 2018-02-26
_[en-163] arXiv Neural Architecture Search with Reinforcement Learning 2016-11-04
_[en-164] 논문 Auto-keras: An efficient neural architecture search system https://autokeras.co[...] ACM 2019-08-21
_[en-165] arXiv Hyperparameter Search in Machine Learning 2015
_[en-166] 서적 Handbook of Applied Mathematics Springer US 1990
_[en-167] 서적 A Concise Guide to Market Research Springer Berlin Heidelberg 2023-03-20
_[en-168] 서적 2016 IEEE Symposium Series on Computational Intelligence (SSCI) 2023-03-22
_[en-169] 서적 Dynamic Data Assimilation – Beating the Uncertainties 2023-03-20
_[en-170] 서적 2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE) IEEE 2023-03-20
_[en-171] 서적 Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains Wiley
_[en-172] 논문 A cloud based architecture capable of perceiving and predicting multiple vessel behaviour https://zenodo.org/r[...] 2019-07-18
_[en-173] 논문 Lung sound classification using cepstral-based statistical features 2016-08
_[en-174] 논문 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction https://arxiv.org/ab[...] Springer, Cham 2016
_[en-175] 논문 Introduction to Neural Net Machine Vision http://www.vision-sy[...] 2007-03
_[en-176] 서적 2015 13th International Conference on Document Analysis and Recognition (ICDAR) 2021-03-18
_[en-177] 논문 Sensor for food analysis applying impedance spectroscopy and artificial neural networks https://riunet.upv.e[...] 2021-10-21
_[en-178] 논문 The time traveller's CAPM
_[en-179] 논문 Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies
_[en-180] 논문 Mastering the game of Go with deep neural networks and tree search http://web.iitd.ac.i[...] 2019-01-31
_[en-181] 뉴스 Artificial Intelligence Glossary: Neural Networks and Other Terms Explained https://www.nytimes.[...] 2023-04-22
_[en-182] 뉴스 Facebook Boosts A.I. to Block Terrorist Propaganda https://www.wsj.com/[...] 2017-06-16
_[en-183] 서적 Introduction to Artificial Intelligence: from data analysis to generative AI Intellisemantic Editions 2024
_[en-184] 논문 Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data
_[en-185] 논문 Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions http://www.lcc.uma.e[...] The Lancet 2012-05-02
_[en-186] 논문 Measuring systematic changes in invasive cancer cell shape using Zernike moments http://pubs.rsc.org/[...] 2017-03-28
_[en-187] 논문 Changes in cell shape are correlated with metastatic potential in murine 2016
_[en-188] 논문 Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks 2017-08-28
_[en-189] 논문 Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates https://trid.trb.org[...] 2018-03-14
_[en-190] 논문 Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock 2018-09
_[en-191] 논문 Artificial Neural Network for Modelling Rainfall-Runoff http://www.pertanika[...] 2023-05-17
_[en-192] 논문 Artificial Neural Networks in Hydrology. I: Preliminary Concepts 2000-04-01
_[en-193] 논문 Artificial Neural Networks in Hydrology. II: Hydrologic Applications 2000-04-01
_[en-201] 웹사이트 Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before https://www.quantama[...] 2021-04-19
_[en-202] 웹사이트 AI has cracked a key mathematical puzzle for understanding our world https://www.technolo[...]
_[en-203] 웹사이트 Caltech Open-Sources AI for Solving Partial Differential Equations https://www.infoq.co[...]
_[en-204] 논문 Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems 2019-06-28
_[en-205] 논문 Constructing neural stationary states for open quantum many-body systems 2019-06-28
_[en-206] 논문 Neural-Network Approach to Dissipative Quantum Many-Body Dynamics 2019-06-28
_[en-207] 논문 Variational Neural-Network Ansatz for Steady States in Open Quantum Systems 2019-06-28
_[en-208] 논문 Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster 2015-04
_[en-209] 논문 Semantic Image-Based Profiling of Users' Interests with Neural Networks https://www.research[...] 2024-01-20
_[en-210] 논문 Scaling deep learning for materials discovery 2023-12
_[en-211] 논문 Turing computability with neural nets http://www.math.rutg[...] 2017-01-10
_[en-212] 뉴스 Analog computer trumps Turing model https://www.eetimes.[...] 1998-11-03
_[en-213] 논문 Computational Power of Neural Networks: A Kolmogorov Complexity Characterization 1997-07
_[en-214] 서적 Information Theory, Inference, and Learning Algorithms http://www.inference[...] Cambridge University Press 2016-06-11
_[en-215] 논문 Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition http://www-isl.stanf[...] IEEE 2020-03-10
_[en-216] 서적 Proceedings of the 27th ACM International Conference on Multimedia ACM
_[en-217] 웹사이트 Stop tinkering, start measuring! Predictable experimental design of Neural Network experiments http://tfmeter.icsi.[...] 2020-03-10
_[en-218] 논문 Wide neural networks of any depth evolve as linear models under gradient descent
_[en-219] conference Neural Tangent Kernel: Convergence and Generalization in Neural Networks https://proceedings.[...] 2022-06-04
_[en-220] 서적 Neural Information Processing Springer, Cham 2019
_[en-221] 논문 On the Spectral Bias of Neural Networks http://proceedings.m[...] 2022-06-04
_[en-222] 논문 Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks
_[en-223] 논문 Theory of the Frequency Principle for General Deep Neural Networks 2019
_[en-224] 논문 Deep Frequency Principle Towards Understanding Why Deeper Learning is Faster https://ojs.aaai.org[...] 2021-05-18
_[en-225] 논문 Continual lifelong learning with neural networks: A review 2019-05-01
_[en-226] 간행물 Knowledge-based Training of Artificial Neural Networks for Autonomous Robot Driving
_[en-227] 서적 Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science https://books.google[...] Wiley 1997-04-01
_[en-228] 웹사이트 NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE http://www.nasa.gov/[...] 2010-04-02
_[en-229] 웹사이트 Roger Bridgman's defence of neural networks http://members.fortu[...] 2010-07-12
_[en-230] 웹사이트 Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0 http://www.iro.umont[...]
_[en-231] 간행물 Distributed hierarchical processing in the primate cerebral cortex https://archive.toda[...]
_[en-232] 간행물 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind https://www.amazon.c[...] BMI Press
_[en-233] 논문 Growing pains for deep learning 2015-06-25
_[en-234] 웹사이트 The Bitter Lesson http://www.incomplet[...] 2024-08-07
_[en-235] 뉴스 Google Built Its Very Own Chips to Power Its AI Bots https://www.wired.co[...] 2016-05-18
_[en-236] 웹사이트 Scaling Learning Algorithms towards AI http://yann.lecun.co[...] 2022-07-06
_[en-237] 논문 A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation
_[en-238] 간행물
_[en-239] 논문 Addressing bias in big data and AI for health care: A call for open science 2021-10
_[en-240] 논문 Failing at Face Value: The Effect of Biased Facial Recognition Technology on Racial Discrimination in Criminal Justice 2022-10-27
_[en-241] 논문 Gender Bias in Hiring: An Analysis of the Impact of Amazon's Recruiting Algorithm https://aemps.ewapub[...] 2023-12-09
_[en-242] 서적 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) https://edoc.unibas.[...] IEEE 2023-12-30
_[en-243] 논문 Advances in Artificial Neural Networks – Methodological Development and Application 2009
_[en-244] 논문 Exploring the Advancements and Future Research Directions of Artificial Neural Networks: A Text Mining Approach 2023
_[en-245] 논문 Generative AI and ChatGPT 2023-07-03
_[ja-1] 서적 ニューラルネットワークとディープラーニング学術図書出版社
_[ja-2] 서적 2020年版基本情報技術者標準教科書オーム社
_[ja-3] 서적 よくわかる脳神経外科学金原出版
_[ja-4] 서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社
_[ja-5] 기타
_[ja-6] 서적 C++とJavaでつくるニューラルネットワークパーソナルメディア株式会社
_[ja-7] 서적 The Cerebellum as a Neuronal Machine https://marlin.life.[...] Springer
_[ja-8] 논문 An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification http://papers.nips.c[...]
_[ja-9] 논문 Generalization and Network Design Strategies http://yann.lecun.co[...]
_[ja-10] 논문 Backpropagation applied to handwritten zip code recognition
_[ja-11] 웹사이트 Reducing the Dimensionality of Data with Neural Networks http://www.sciencema[...]
_[ja-12] 웹사이트 A fast learning algorithm for deep belief nets http://dl.acm.org/ci[...]
_[ja-13] 논문 Serial order: A parallel distributed processing approach University of California, Institute for Cognitive Science
_[ja-14] 기타
_[ja-15] 논문 A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures https://doi.org/10.1[...] 2019-07-01
_[ja-16] 논문 Attention Is All You Need https://arxiv.org/ab[...] 2017-12-05
_[ja-17] 웹사이트 Neuromorphic Processing : A New Frontier in Scaling Computer Architecture http://www.cs.utah.e[...] Qualcomm
_[ja-18] 웹사이트 Qualcomm’s cognitive compute processors are coming to Snapdragon 820 http://www.extremete[...] ExtremeTech 2015-03-02
_[ja-19] 웹사이트 複素ニューラルネットワーク http://staff.aist.go[...]
_[ja-20] 기타
_[ja-21] 논문 Generalization Characteristics of Complex-valued Feedforward Neural Networks in Relation to Signal Coherence
_[ja-22] 기타
_[ja-23] 기타
_[ja-24] 기타
_[ja-25] 웹사이트 第2章：ディープ・ニューラルネットワークのニューロチップへの実装～その勘所は!! https://www.semiconp[...] semiconportal
_[ja-26] 논문 低ランク近似を用いた深層学習の行列積の高速化
_[ja-27] 웹사이트 Optimize and Accelerate Machine Learning Inferencing and Training https://onnxruntime.[...] ONNX Runtime
_[ja-28] 웹사이트 Direct Machine Learning (DirectML) https://docs.microso[...] Microsoft
_[ja-29] 웹사이트 NVIDIA TensorRT https://developer.nv[...] NVIDIA
_[ja-30] 웹사이트 Model optimization https://www.tensorfl[...] TensorFlow
_[ja-31] 웹사이트 DYNAMIC QUANTIZATION https://pytorch.org/[...] PyTorch
_[ja-32] 웹사이트 Quantize ONNX Models https://onnxruntime.[...] ONNX Runtime
_[ja-33] 웹사이트 Model optimization https://www.tensorfl[...] TensorFlow
_[ja-34] 웹사이트 Quantize ONNX Models https://onnxruntime.[...] ONNX Runtime
_[ja-35] 웹사이트 Quantize ONNX Models https://onnxruntime.[...] ONNX Runtime
_[ja-36] 웹사이트 QUANTIZATION https://pytorch.org/[...] PyTorch
_[ja-37] 웹사이트 DYNAMIC QUANTIZATION https://pytorch.org/[...] PyTorch
_[ja-38] 웹사이트 DYNAMIC QUANTIZATION https://pytorch.org/[...] PyTorch
_[ja-39] 웹사이트 FAKEQUANTIZE https://pytorch.org/[...] PyTorch 2022-03-15
_[ja-40] 웹사이트 Quantize ONNX Models https://onnxruntime.[...] ONNX RUNTIME 2022-03-15
_[ko-1] 저널 A Logical Calculus of Ideas Immanent in Nervous Activity
_[ko-2] 서적 The Organization of Behavior Wiley
_[ko-3] 저널 Simulation of Self-Organizing Systems by Digital Computer
_[ko-4] 저널 Tests on a cell assembly theory of the action of the brain, using a large digital computer
_[ko-5] 저널 The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain
_[ko-6] 서적 Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences
_[ko-7] 서적 An Introduction to Computational Geometry MIT Press
_[ko-8] 서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition https://archive.org/[...] MIT Press
_[ko-9] 웹인용 Neural Networks Module http://uhaweb.hartfo[...] 2012
_[ko-10] 간행물 "Nat. Nanotechnol. 2008, 3, 429–433"
_[ko-11] 간행물 "Nature 2008, 453, 80–83."
_[ko-12] 웹사이트 2012 Kurzweil AI Interview http://www.kurzweila[...] 2018-08-31
_[ko-13] 웹사이트 2012 Kurzweil AI Interview with [[Jürgen Schmidhuber]] on the eight competitions won by his Deep Learning team 2009–2012 http://www.kurzweila[...] 2018-08-31
_[ko-14] 논문 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks http://www.idsia.ch/[...] Neural Information Processing Systems (NIPS) Foundation
_[ko-15] 논문 A Novel Connectionist System for Improved Unconstrained Handwriting Recognition http://www.idsia.ch/[...]
_[ko-16] 논문 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks Neural Information Processing Systems (NIPS) Foundation
_[ko-17] 논문 A Novel Connectionist System for Improved Unconstrained Handwriting Recognition
_[ko-18] 논문 Multi-Column Deep Neural Network for Traffic Sign Classification
_[ko-19] 논문 Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images
_[ko-20] 논문 Multi-column Deep Neural Networks for Image Classification
_[ko-21] 저널 Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position
_[ko-22] 간행물 Hierarchical models of object recognition in cortex
_[ko-23] 웹사이트 Deep belief networks http://www.scholarpe[...]
_[ko-24] 저널 A Fast Learning Algorithm for Deep Belief Nets http://www.cs.toront[...]
_[ko-25] 뉴스 Scientists See Promise in Deep-Learning Programs http://www.nytimes.c[...] 2012-11-23
_[ko-26] 웹인용 The Machine Learning Dictionary http://www.cse.unsw.[...] 2015-04-28
_[ko-27] 콘퍼런스 Genetic reinforcement learning for neural networks http://dx.doi.org/10[...] IEEE 2012-07-29
_[ko-28] 저널 Process control via artificial neural networks and reinforcement learning
_[ko-29] 서적 Neuro-dynamic programming Athena Scientific
_[ko-30] 저널 Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands
_[ko-31] 콘퍼런스 Neuro-dynamic programming for the efficient management of reservoir networks https://zenodo.org/r[...] Modelling and Simulation Society of Australia and New Zealand 2012-07-29
_[ko-32] 콘퍼런스 Genetic algorithms and neuro-dynamic programming: application to water supply networks http://dx.doi.org/10[...] IEEE 2012-07-29
_[ko-33] 저널 Neuro-dynamic programming for fractionated radiotherapy planning
_[ko-34] 콘퍼런스 A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management http://www.nt.ntnu.n[...] IFAC 2011-12-30
_[ko-35] 웹인용 Designing Neural Networks Using Gene Expression Programming http://www.gene-expr[...] In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag
_[ko-36] 콘퍼런스 An improved PSO-based ANN with simulated annealing technique Elsevier 2011-12-30
_[ko-37] 콘퍼런스 A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network Springer 2012-01-01
_[ko-38] 웹인용 Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data http://www.ijcaonlin[...] International Journal of Computer Applications
_[ko-39] 저널 Turing computability with neural nets http://www.math.rutg[...] 2013-12-09
_[ko-40] 저널 Computational Power of Neural Networks: A Kolmogorov Complexity Characterization http://ieeexplore.ie[...] 2014-11-03
_[ko-41] 웹사이트 NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE http://www.nasa.gov/[...] 2013-11-20
_[ko-42] 웹인용 Roger Bridgman's defence of neural networks http://members.fortu[...] 2015-04-30
_[ko-43] 웹인용 보관된 사본 http://www.iro.umont[...] 2015-04-30
_[ko-44] 간행물
_[ko-45] 저널 A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation http://www.sciencedi[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com