잔차 신경망
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
잔차 신경망은 다층 신경망에서 입력과 출력 사이에 "스킵 연결"을 사용하여 심층 네트워크의 훈련을 용이하게 하는 딥러닝 아키텍처이다. 잔차 학습은 하위 네트워크를 재매개변수화하여 "잔차 함수"를 나타내도록 하며, 순방향 및 역방향 전파 모두에서 신호 전파를 개선한다. 이러한 아키텍처는 기울기 소실 문제를 완화하고, 컴퓨터 비전, 자연어 처리, 생물학적 시스템 등 다양한 분야에 응용된다. 잔차 블록의 변형으로 기본 블록, 병목 블록, 사전 활성화 블록, 트랜스포머 블록 등이 있으며, 딥러닝 모델의 성능 향상에 기여한다.
더 읽어볼만한 페이지
잔차 신경망 | |
---|---|
개요 | |
![]() | |
유형 | 심층 신경망 |
개발자 | 카이밍 허 샹위 장 샤오칭 런 젠 선 |
발표일 | 2015년 |
상세 정보 | |
이전 모델 문제점 | 깊은 신경망의 학습 어려움 (gradient vanishing/exploding) |
해결책 | 잔차 학습 (Residual Learning) |
핵심 아이디어 | 항등 연결 (Identity Connection) 잔차 블록 (Residual Block) |
잔차 블록 | 입력 x를 F(x) + x로 매핑 |
레이어 깊이 | 수백, 수천 레이어 가능 |
성능 | |
ILSVRC 2015 | 1등 |
ImageNet 오류율 | 3.57% |
특징 | |
주요 특징 | 매우 깊은 네트워크 학습 가능 그래디언트 소실/폭발 문제 완화 기존 네트워크보다 우수한 성능 |
유사 모델 | 하이웨이 네트워크 LSTM |
2. 공식화
다층 신경망 모델에서는, 일정 수(예: 2층 또는 3층)의 층으로 구성된 서브 네트워크를 생각할 수 있다. 이 서브 네트워크가 실행하는 기본적인 기능을 $H(x)$로 정의한다. 여기서 $x$는 이 서브 네트워크에 대한 입력이다. 잔차 학습은 이 서브 네트워크를 재매개변수화하여, 매개변수 층이 잔차 함수 $F(x) := H(x) - x$를 표현하도록 한다. 출력 $y$는 다음과 같이 표현된다.[1]
:
2. 1. 잔차 학습
다층 신경망 모델에서, 특정 수의 레이어로 구성된 하위 네트워크를 고려해 볼 수 있다. 이 하위 네트워크가 수행하는 기본 함수를 로 나타내며, 여기서 는 하위 네트워크의 입력이다. 잔차 학습은 이 하위 네트워크를 재매개변수화하여 매개변수 레이어가 "잔차 함수" 를 나타내도록 한다. 이 하위 네트워크의 출력 는 다음과 같이 표현된다.[1]:
"" 연산은 하위 네트워크의 입력을 출력에 연결하기 위해 항등 매핑을 수행하는 "스킵 연결"을 통해 구현된다. 이 연결은 이후 연구에서 "잔차 연결"이라고 불린다. 함수 는 종종 활성화 함수 및 정규화 연산(배치 정규화 또는 레이어 정규화)과 교차하여 행렬 곱셈으로 표현된다. 전체적으로 이러한 하위 네트워크 중 하나를 "잔차 블록"이라고 한다.[1] 심층 잔차 네트워크는 이러한 블록을 단순히 쌓아서 구성된다.
장단기 기억(LSTM)은 잔차 연결 역할을 하는 메모리 메커니즘을 가지고 있다.[4] 망각 게이트가 없는 LSTM에서 입력 는 함수 에 의해 처리되고 메모리 셀 에 더해져 가 된다. 망각 게이트가 있는 LSTM은 본질적으로 고속도로 네트워크로 기능한다.
레이어 입력의 분산을 안정시키기 위해, 잔차 연결 를 로 대체하는 것이 권장되며, 여기서 은 잔차 레이어의 총 개수이다.[5]
2. 2. 투영 연결 (Projection Connection)
입력과 출력의 차원이 다른 경우, 를 정의할 수 없으므로, 선형 투영 를 사용하여 형태로 표현한다.여기서 는 일반적으로 로 정의되는 선형 투영이며, 은 행렬이다. 이 행렬은 모델의 다른 매개변수와 마찬가지로 역전파를 통해 훈련된다.
2. 3. 신호 전파
잔차 연결은 신경망에서 순방향 및 역방향 신호 전파를 용이하게 하는 메커니즘이다.레이어 입력의 분산을 안정시키기 위해 잔차 연결 를 로 대체하는 것이 권장된다. 여기서 은 잔차 레이어의 총 개수이다.[5]
장단기 기억(LSTM)은 잔차 연결 역할을 하는 메모리 메커니즘을 가지고 있다.[4] 망각 게이트가 없는 LSTM에서 입력 는 함수 에 의해 처리되고 메모리 셀 에 더해져 가 된다. 망각 게이트가 있는 LSTM은 본질적으로 고속도로 네트워크로 기능한다.
항등 매핑을 도입하면 순방향 및 역방향 경로 모두에서 신호 전파가 용이해진다.[6]
2. 3. 1. 순방향 전파 (Forward Propagation)
다층 신경망 모델에서, 특정 수의 층을 쌓은 하위 네트워크(예: 2개 또는 3개)를 고려해 보자. 이 하위 네트워크가 수행하는 기본 함수를 로 나타내며, 여기서 는 하위 네트워크의 입력이다. 잔차 학습은 이 하위 네트워크를 재매개변수화하여 매개변수 레이어가 "잔차 함수" 를 나타내도록 한다. 이 하위 네트워크의 출력 는 다음과 같이 표현된다.:
"" 연산은 하위 네트워크의 입력을 출력에 연결하기 위해 항등 매핑을 수행하는 "스킵 연결"을 통해 구현된다. 이 연결은 이후 연구에서 "잔차 연결"이라고 불린다. 함수 는 종종 활성화 함수 및 정규화 연산(예: 배치 정규화 또는 레이어 정규화)과 교차하여 행렬 곱셈으로 표현된다. 전체적으로 이러한 하위 네트워크 중 하나를 "잔차 블록"이라고 한다.[1] 심층 잔차 네트워크는 이러한 블록을 단순히 쌓아서 구성된다.
항등 매핑의 도입은 순방향 및 역방향 경로 모두에서 신호 전파를 용이하게 한다.[6]
만약 번째 잔차 블록의 출력이 ()번째 잔차 블록의 입력이라면 (블록 사이에 활성화 함수가 없다고 가정), ()번째 입력은 다음과 같다.
:
이 공식을 재귀적으로 적용하면, 예를 들어:
:
다음과 같은 일반적인 관계가 도출된다.
:
여기서 은 잔차 블록의 인덱스이고 는 이전 블록의 인덱스이다. 이 공식은 얕은 블록 에서 더 깊은 블록 로 직접 전송되는 신호가 항상 존재함을 시사한다.
2. 3. 2. 역방향 전파 (Backward Propagation)
다층 신경망 모델에서 잔차 학습은 기울기 소실 문제를 완화하는 데 도움을 준다. 잔차 블록의 입력 에 대한 손실 함수 의 편미분을 고려하면, 잔차 블록 에 대한 순전파 방정식을 통해 다음과 같은 식을 얻을 수 있다.[6]:
이 공식은 얕은 레이어 의 기울기 계산에 항상 항이 직접 더해진다는 것을 보여준다. 항의 기울기가 작더라도 총 기울기 는 항이 더해지기 때문에 기울기 소실에 저항성을 갖게 된다.[6]
동일성 매핑을 도입하면 순방향 및 역방향 경로에서 신호 전파가 쉬워진다.[39]
3. 잔차 블록의 변형
잔차 블록은 기본 블록, 병목 블록 등 다양한 형태로 변형되어 사용된다.
3. 1. 기본 블록 (Basic Block)
''기본 블록''은 최초의 ResNet에서 연구된 가장 기본적인 구성 요소이다.[1] 이 블록은 두 개의 순차적인 3x3 합성곱 계층과 잔차 연결로 구성된다. 두 계층의 입력 및 출력 차원은 같다.
3. 2. 병목 블록 (Bottleneck Block)
'''병목 블록'''[1]은 세 개의 순차적인 합성곱 계층과 잔차 연결로 구성된다. 이 블록의 첫 번째 계층은 차원 축소를 위한 1x1 합성곱(예: 입력 차원의 1/2)이다. 두 번째 계층은 3x3 합성곱을 수행한다. 마지막 계층은 차원 복원을 위한 또 다른 1x1 합성곱이다. ResNet-50, ResNet-101, ResNet-152 모델은 모두 병목 블록을 기반으로 한다.[1]
3. 3. 사전 활성화 블록 (Pre-activation Block)
'''사전 활성화 잔차 블록'''[6]은 잔차 함수 를 적용하기 전에 활성화 함수를 적용한다. 사전 활성화 잔차 블록의 계산은 다음과 같이 쓸 수 있다.:
여기서 는 ReLU와 같은 활성화 함수 또는 레이어 정규화와 같은 정규화 연산이 될 수 있다. 이 설계는 잔차 블록 간의 비-항등 매핑의 수를 줄인다. 이 설계는 200개에서 1000개 이상의 레이어를 가진 모델을 훈련하는 데 사용되었다.[6]
GPT-2 이후, 트랜스포머 블록은 대부분 사전 활성화 블록으로 구현되었다. 이는 트랜스포머 모델 관련 문헌에서 종종 "사전 정규화"라고 불린다.[7]
3. 4. 트랜스포머 블록 (Transformer Block)
GPT-2 이후, 트랜스포머 블록은 대부분 사전 활성화 블록으로 구현되었으며, 이는 트랜스포머 모델 문헌에서 종종 "사전 정규화"라고 불린다.[7]트랜스포머 블록은 두 개의 잔차 블록을 쌓아 올린 것이다. 각 잔차 블록은 잔차 연결을 갖는다. 첫 번째 잔차 블록은 멀티 헤드 어텐션 블록으로, (자기) 어텐션 계산 후 선형 투영을 수행한다.
두 번째 잔차 블록은 피드 포워드 다층 퍼셉트론(MLP) 블록이다. 이 블록은 "역" 병목 블록과 유사하며, 차원을 증가시키는 선형 사영층(이는 컨볼루션 신경망의 맥락에서 1x1 컨볼루션에 해당)과 차원을 감소시키는 또 다른 선형 사영층을 갖는다.
트랜스포머 블록의 깊이는 4층(선형 투영)이다. GPT-3 모델에는 96개의 트랜스포머 블록이 있다(트랜스포머 문헌에서는 트랜스포머 블록을 종종 "트랜스포머 레이어"라고 부른다). 이 모델은 트랜스포머 블록의 96x4층과 입력 임베딩 및 출력 예측을 위한 여분의 층을 포함하여 약 400개의 투영층 깊이를 갖는다.
매우 깊은 트랜스포머 모델은 잔차 연결 없이는 잘 학습될 수 없다.[42]
4. 역사
2012년에 ImageNet용으로 개발된 AlexNet 모델은 8층의 합성곱 신경망이었다. 옥스퍼드 대학교의 Visual Geometry Group(VGG)이 2014년에 개발한 신경망은 3×3의 합성곱층을 겹쳐서 19층의 깊이에 가까워졌다.[37] 그러나 더 많은 층을 쌓는 것은 학습 정확도의 빠른 저하로 이어졌는데, 이를 "저하" 문제라고 불렀다.[38]
더 깊은 네트워크는 더 얕은 네트워크에 여분의 레이어를 쌓아서 구축할 수 있다면, 더 얕은 네트워크보다 학습 손실이 커질 이유는 없다. 만약 여분의 층을 항등 매핑으로 설정할 수 있다면, 깊은 네트워크는 얕은 네트워크와 같은 기능을 나타낼 것이다. 옵티마이저가 매개변수화된 층에 대해 항등 매핑에 가까워질 수 없다는 가설이 성립한다.
4. 1. 이전 연구 (Previous work)
신경해부학에서 잔차 연결이 관찰되었는데, 예를 들어 로렌테 데 노(1938)가 있다.[13] 맥컬록과 피츠(1943)는 인공 신경망을 제안했고 잔차 연결을 가진 신경망을 고려했다.[14]1961년, 프랭크 로젠블라트는 건너뛰기 연결이 있는 3계층 다층 퍼셉트론(MLP) 모델을 설명했다.[15] 이 모델은 "교차 결합 시스템"이라고 불렸고, 건너뛰기 연결은 교차 결합 연결의 한 형태였다.[43]
1980년대 후반에는 신경망에서 "건너뛰기 계층" 연결이 사용되기도 했다. 랑과 위트브록(1988)은 각 계층이 이후의 모든 계층에 건너뛰기 연결되는 완전 연결 피드포워드 네트워크를 훈련시켰는데, 이는 이후의 DenseNet(2016)과 유사하다. 이 연구에서 잔차 연결은 x ↦ F(x) + P(x) 형태였으며, 여기서 P는 무작위로 초기화된 투영 연결이었다. 그들은 이를 "단축 연결"이라고 칭했다.
4. 2. 저하 문제 (Degradation Problem)
딥 러닝 초기에는 점점 더 깊은 모델을 훈련하려는 시도가 있었다. 주목할 만한 예로는 8개의 레이어를 가진 알렉스넷(2012)과 19개의 레이어를 가진 VGG-19(2014)가 있었다.[23] 그러나 너무 많은 레이어를 쌓으면 훈련 정확도가 급격히 감소하여 "저하" 문제라고 알려졌다.[1]이론적으로, 네트워크를 더 깊게 만들기 위해 추가 레이어를 추가해도 더 높은 훈련 손실이 발생해서는 안 되지만, VGGNet에서 이런 현상이 발생했다.[1] 추가 레이어를 항등 매핑으로 설정할 수 있다면, 더 깊은 네트워크는 얕은 네트워크와 동일한 기능을 나타낼 것이다. 옵티마이저가 파라미터화된 레이어에 대한 항등 매핑에 접근할 수 없다는 증거가 있으며, 잔차 연결의 이점은 기본적으로 항등 매핑을 허용하는 것이었다.[6]
2012년에 ImageNet용으로 개발된 AlexNet 모델은 8층의 합성곱 신경망이었다. 옥스퍼드 대학교의 Visual Geometry Group(VGG)이 2014년에 개발한 신경망은 3×3의 합성곱층을 겹쳐서 19층의 깊이에 가까워졌다.[37] 그러나, 더 많은 층을 쌓는 것은 학습 정확도의 빠른 저하로 이어졌는데 이를 "저하" 문제라고 불렀다.[38]
더 깊은 네트워크가 더 얕은 네트워크에 여분의 레이어를 쌓아서 구축할 수 있다면, 더 얕은 네트워크보다 학습 손실이 커질 이유는 없다. 만약 여분의 층을 항등 매핑으로 설정할 수 있다면, 깊은 네트워크는 얕은 네트워크와 같은 기능을 나타낼 것이다. 옵티마이저는 매개변수화된 층에 대해 항등 매핑에 가까워질 수 없다는 가설이 성립한다.
4. 3. 후속 연구 (Subsequent work)
'''DenseNet''' (2016)[26]은 각 계층의 출력을 이후의 각 계층의 입력에 연결한다.:
'''Stochastic depth'''[27]는 임의로 계층의 하위 집합을 삭제하고 신호가 identity skip 연결을 통해 전파되도록 하는 정규화 방법이다. ''DropPath''라고도 알려진 이 방법은 비전 변환기와 같은 딥 모델의 훈련을 정규화한다.[28]
'''ResNeXt''' (2017)는 Inception 모듈을 ResNet과 결합했다.[29][30]
'''Squeeze-and-Excitation Networks''' (2018)는 ResNet에 squeeze-and-excitation (SE) 모듈을 추가했다.[31] SE 모듈은 컨볼루션 후에 적용되며, (높이, 너비, 채널) 형태의 텐서를 입력으로 사용한다. 각 채널은 평균화되어 형태의 벡터가 된다. 그런 다음 이 벡터는 원래 텐서와 곱해지기 전에 다층 퍼셉트론 (''linear-ReLU-linear-sigmoid''와 같은 아키텍처)을 통과한다.
5. 응용
잔차 신경망은 원래 컴퓨터 비전을 위해 설계되었지만,[1][30][8] 자연어 처리 등 다양한 분야에 응용되고 있다. 모든 변압기 아키텍처는 잔차 연결을 포함하는데,[9] 실제로 매우 깊은 변압기는 잔차 연결 없이는 훈련될 수 없다.[9]
원래 잔차 신경망 논문은 생물학적 시스템에서 영감을 받았다는 주장을 하지 않았지만, 이후 연구들은 잔차 신경망을 생물학적으로 타당한 알고리즘과 연관시켰다.[10][11] 2023년 ''사이언스''에 게재된 연구[12]는 곤충 뇌(구체적으로 초파리 유충의 뇌)의 완전한 커넥톰을 공개했는데, 이 연구는 잔차 신경망을 포함한 인공 신경망의 건너뛰기 연결과 유사한 "다층 지름길"을 발견했다.
5. 1. 컴퓨터 비전 (Computer Vision)
원래, 잔차 신경망은 컴퓨터 비전을 위해 설계되었다.[1][30][8]
5. 2. 자연어 처리 (Natural Language Processing)
트랜스포머 아키텍처는 잔차 연결을 포함하며, 매우 깊은 변압기는 잔차 연결 없이는 훈련될 수 없다.[9]트랜스포머 블록은 두 개의 잔차 블록을 쌓아 올린 것이다. 각 잔차 블록은 잔차 연결을 갖는다. 첫 번째 잔차 블록은 멀티 헤드 어텐션 블록으로, (자기) 어텐션 계산 후 선형 투영을 수행한다.
두 번째 잔차 블록은 피드 포워드 다층 퍼셉트론(MLP) 블록이다. 이 블록은 "역" 병목 블록과 유사하며, 차원을 증가시키는 선형 사영층(이는 합성곱 신경망의 맥락에서 1x1 컨볼루션에 해당)과, 차원을 감소시키는 또 다른 선형 사영층을 갖는다.
트랜스포머 블록의 깊이는 4층(선형 투영)이다. GPT-3 모델에는 96개의 트랜스포머 블록이 있다(트랜스포머 문헌에서는 트랜스포머 블록을 종종 "트랜스포머 레이어"라고 부른다). 이 모델은 트랜스포머 블록의 96x4층과 입력 임베딩 및 출력 예측을 위한 여분의 층을 포함하여, 약 400개의 투영층 깊이를 갖는다.
매우 깊은 트랜스포머 모델은 잔차 연결 없이는 잘 학습될 수 없다.[42]
6. 생물학적 관계
최초의 잔차 신경망 논문은 생물학적 시스템에 시사하는 바가 있다고 주장하지 않았다. 그러나 이후의 연구에서 잔차 신경망은 생물학적으로 타당한 알고리즘과 연관되게 되었다.[44][45]
2023년 사이언스지에 발표된 연구에서는 곤충(초파리 유충) 뇌 전체의 커넥톰이 공개되었다. 이 연구에서는 ResNets를 포함한 인공 신경망의 스킵 연결과 유사한 "다층 숏컷"이 발견되었다.[46]
참조
[1]
Conference
Deep Residual Learning for Image Recognition
https://openaccess.t[...]
[2]
웹사이트
ILSVRC2015 Results
https://image-net.or[...]
[3]
Conference
ImageNet: A large-scale hierarchical image database
[4]
간행물
Long short-term memory
https://www.research[...]
[5]
Conference
How to Start Training: The Effect of Initialization and Architecture
https://proceedings.[...]
Curran Associates, Inc.
2018
[6]
Conference
Identity Mappings in Deep Residual Networks
https://link.springe[...]
[7]
웹사이트
Language models are unsupervised multitask learners
https://cdn.openai.c[...]
2020-12-19
[8]
Conference
Inception-v4, Inception-ResNet and the impact of residual connections on learning
https://cdn.aaai.org[...]
[9]
Conference
Attention is not all you need: pure attention loses rank doubly exponentially with depth
http://proceedings.m[...]
PMLR
[10]
Arxiv
Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex
2016
[11]
Conference
Biologically-Plausible Learning Algorithms Can Scale to Large Datasets
2019
[12]
간행물
The connectome of an insect brain
2023-03-10
[13]
간행물
Analysis of the Activity of the Chains of Internuncial Neurons
https://www.physiolo[...]
1938-05-01
[14]
간행물
A logical calculus of the ideas immanent in nervous activity
https://link.springe[...]
1943-12-01
[15]
서적
Principles of neurodynamics. perceptrons and the theory of brain mechanisms
https://safari.ethz.[...]
1961
[16]
서적
"Learning internal representations by error propagation"
[17]
서적
Modern Applied Statistics with S-Plus
https://books.google[...]
Springer
1994
[18]
간행물
Learning to tell two spirals apart
https://gwern.net/do[...]
[19]
학위논문
Untersuchungen zu dynamischen neuronalen Netzen
http://www.bioinf.jk[...]
Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber
[20]
간행물
Learning to Forget: Continual Prediction with LSTM
[21]
Arxiv
Highway Networks
2015-05-03
[22]
Conference
Training Very Deep Networks
https://proceedings.[...]
[23]
Arxiv
Very Deep Convolutional Networks for Large-Scale Image Recognition
2015-04-10
[24]
Conference
Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
https://openaccess.t[...]
[25]
웹사이트
Microsoft researchers win ImageNet computer vision challenge
https://blogs.micros[...]
2024-06-29
[26]
Conference
Densely Connected Convolutional Networks
https://openaccess.t[...]
[27]
Conference
Deep Networks with Stochastic Depth
https://link.springe[...]
[28]
Conference
MPViT: Multi-Path Vision Transformer for Dense Prediction
https://openaccess.t[...]
[29]
Conference
Aggregated Residual Transformations for Deep Neural Networks
https://openaccess.t[...]
[30]
서적
Dive into deep learning
Cambridge University Press
2024
[31]
Conference
Squeeze-and-Excitation Networks
https://openaccess.t[...]
2018
[32]
Conference
Deep Residual Learning for Image Recognition
2015-12-10
[33]
Arxiv
Highway Networks
2015-05-03
[34]
간행물
Long short-term memory
https://www.research[...]
[35]
간행물
ImageNet: A large-scale hierarchical image database
https://scholar.goog[...]
[36]
웹사이트
ILSVRC2015 Results
https://image-net.or[...]
[37]
arXiv
Very Deep Convolutional Networks for Large-Scale Image Recognition
[38]
arXiv
Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
[39]
arXiv
Identity Mappings in Deep Residual Networks
[40]
arXiv
Identity Mappings in Deep Residual Networks
[41]
웹사이트
Language models are unsupervised multitask learners
https://cdn.openai.c[...]
2019-02-14
[42]
arXiv
Attention is not all you need: pure attention loses rank doubly exponentially with depth
[43]
서적
Principles of neurodynamics. perceptrons and the theory of brain mechanisms
https://safari.ethz.[...]
1961
[44]
conference
Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex
2016
[45]
conference
Biologically-Plausible Learning Algorithms Can Scale to Large Datasets
2018
[46]
journal
The connectome of an insect brain
2023-03-10
[47]
웹인용
내 남은 머리카락은 얼마?… AI 탈모진단법 등장
http://digitalchosun[...]
2022-11-20
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com