잔차 신경망

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

잔차 신경망은 다층 신경망에서 입력과 출력 사이에 "스킵 연결"을 사용하여 심층 네트워크의 훈련을 용이하게 하는 딥러닝 아키텍처이다. 잔차 학습은 하위 네트워크를 재매개변수화하여 "잔차 함수"를 나타내도록 하며, 순방향 및 역방향 전파 모두에서 신호 전파를 개선한다. 이러한 아키텍처는 기울기 소실 문제를 완화하고, 컴퓨터 비전, 자연어 처리, 생물학적 시스템 등 다양한 분야에 응용된다. 잔차 블록의 변형으로 기본 블록, 병목 블록, 사전 활성화 블록, 트랜스포머 블록 등이 있으며, 딥러닝 모델의 성능 향상에 기여한다.

더 읽어볼만한 페이지

인공신경망 - 인공 뉴런
인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
인공신경망 - 퍼셉트론
퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.

잔차 신경망
개요
ResNet 아키텍처
유형	심층 신경망
개발자	카이밍 허 샹위 장 샤오칭 런 젠 선
발표일	2015년
상세 정보
이전 모델 문제점	깊은 신경망의 학습 어려움 (gradient vanishing/exploding)
해결책	잔차 학습 (Residual Learning)
핵심 아이디어	항등 연결 (Identity Connection) 잔차 블록 (Residual Block)
잔차 블록	입력 x를 F(x) + x로 매핑
레이어 깊이	수백, 수천 레이어 가능
성능
ILSVRC 2015	1등
ImageNet 오류율	3.57%
특징
주요 특징	매우 깊은 네트워크 학습 가능 그래디언트 소실/폭발 문제 완화 기존 네트워크보다 우수한 성능
유사 모델	하이웨이 네트워크 LSTM

2. 공식화

다층 신경망 모델에서는, 일정 수(예: 2층 또는 3층)의 층으로 구성된 서브 네트워크를 생각할 수 있다. 이 서브 네트워크가 실행하는 기본적인 기능을 $H(x)$로 정의한다. 여기서 $x$는 이 서브 네트워크에 대한 입력이다. 잔차 학습은 이 서브 네트워크를 재매개변수화하여, 매개변수 층이 잔차 함수 $F(x) := H(x) - x$를 표현하도록 한다. 출력 $y$는 다음과 같이 표현된다.^[1]

: $y = F(x) + x$

2. 1. 잔차 학습

다층 신경망 모델에서, 특정 수의 레이어로 구성된 하위 네트워크를 고려해 볼 수 있다. 이 하위 네트워크가 수행하는 기본 함수를

H(x)

로 나타내며, 여기서

x

는 하위 네트워크의 입력이다. 잔차 학습은 이 하위 네트워크를 재매개변수화하여 매개변수 레이어가 "잔차 함수"

F(x)=H(x)-x

를 나타내도록 한다. 이 하위 네트워크의 출력

y

는 다음과 같이 표현된다.^[1]

:

y = F(x) + x

"

+ \ x

" 연산은 하위 네트워크의 입력을 출력에 연결하기 위해 항등 매핑을 수행하는 "스킵 연결"을 통해 구현된다. 이 연결은 이후 연구에서 "잔차 연결"이라고 불린다. 함수

F(x)

는 종종 활성화 함수 및 정규화 연산(배치 정규화 또는 레이어 정규화)과 교차하여 행렬 곱셈으로 표현된다. 전체적으로 이러한 하위 네트워크 중 하나를 "잔차 블록"이라고 한다.^[1] 심층 잔차 네트워크는 이러한 블록을 단순히 쌓아서 구성된다.

장단기 기억(LSTM)은 잔차 연결 역할을 하는 메모리 메커니즘을 가지고 있다.^[4] 망각 게이트가 없는 LSTM에서 입력

x_t

는 함수

F

에 의해 처리되고 메모리 셀

c_t

에 더해져

c_{t+1} = c_t + F(x_t)

가 된다. 망각 게이트가 있는 LSTM은 본질적으로 고속도로 네트워크로 기능한다.

레이어 입력의 분산을 안정시키기 위해, 잔차 연결

x + f(x)

를

x/L + f(x)

로 대체하는 것이 권장되며, 여기서

L

은 잔차 레이어의 총 개수이다.^[5]

2. 2. 투영 연결 (Projection Connection)

입력과 출력의 차원이 다른 경우,

F(x) + x

를 정의할 수 없으므로, 선형 투영

P(x)

를 사용하여

y = F(x) + P(x)

형태로 표현한다.

여기서

P

는 일반적으로

P(x) = Mx

로 정의되는 선형 투영이며,

M

은

m \times n

행렬이다. 이 행렬은 모델의 다른 매개변수와 마찬가지로 역전파를 통해 훈련된다.

2. 3. 신호 전파

잔차 연결은 신경망에서 순방향 및 역방향 신호 전파를 용이하게 하는 메커니즘이다.

레이어 입력의 분산을 안정시키기 위해 잔차 연결

x + f(x)

를

x/L + f(x)

로 대체하는 것이 권장된다. 여기서

L

은 잔차 레이어의 총 개수이다.^[5]

장단기 기억(LSTM)은 잔차 연결 역할을 하는 메모리 메커니즘을 가지고 있다.^[4] 망각 게이트가 없는 LSTM에서 입력

x_t

는 함수

F

에 의해 처리되고 메모리 셀

c_t

에 더해져

c_{t+1} = c_t + F(x_t)

가 된다. 망각 게이트가 있는 LSTM은 본질적으로 고속도로 네트워크로 기능한다.

항등 매핑을 도입하면 순방향 및 역방향 경로 모두에서 신호 전파가 용이해진다.^[6]

2. 3. 1. 순방향 전파 (Forward Propagation)

다층 신경망 모델에서, 특정 수의 층을 쌓은 하위 네트워크(예: 2개 또는 3개)를 고려해 보자. 이 하위 네트워크가 수행하는 기본 함수를

H(x)

로 나타내며, 여기서

x

는 하위 네트워크의 입력이다. 잔차 학습은 이 하위 네트워크를 재매개변수화하여 매개변수 레이어가 "잔차 함수"

F(x) = H(x) - x

를 나타내도록 한다. 이 하위 네트워크의 출력

y

는 다음과 같이 표현된다.

:

y = F(x) + x

"

+ \ x

" 연산은 하위 네트워크의 입력을 출력에 연결하기 위해 항등 매핑을 수행하는 "스킵 연결"을 통해 구현된다. 이 연결은 이후 연구에서 "잔차 연결"이라고 불린다. 함수

F(x)

는 종종 활성화 함수 및 정규화 연산(예: 배치 정규화 또는 레이어 정규화)과 교차하여 행렬 곱셈으로 표현된다. 전체적으로 이러한 하위 네트워크 중 하나를 "잔차 블록"이라고 한다.^[1] 심층 잔차 네트워크는 이러한 블록을 단순히 쌓아서 구성된다.

항등 매핑의 도입은 순방향 및 역방향 경로 모두에서 신호 전파를 용이하게 한다.^[6]

만약

\ell

번째 잔차 블록의 출력이 (

\ell+1

)번째 잔차 블록의 입력이라면 (블록 사이에 활성화 함수가 없다고 가정), (

\ell+1

)번째 입력은 다음과 같다.

:

x_{\ell+1} = F(x_{\ell}) + x_{\ell}

이 공식을 재귀적으로 적용하면, 예를 들어:

:

\begin{align}x_{\ell+2} & = F(x_{\ell+1}) + x_{\ell+1} \\& = F(x_{\ell+1}) + F(x_{\ell}) + x_{\ell}\end{align}

다음과 같은 일반적인 관계가 도출된다.

:

x_{L} = x_{\ell} + \sum_{i=\ell}^{L-1} F(x_{i})

여기서

L

은 잔차 블록의 인덱스이고

\ell

는 이전 블록의 인덱스이다. 이 공식은 얕은 블록

\ell

에서 더 깊은 블록

L

로 직접 전송되는 신호가 항상 존재함을 시사한다.

2. 3. 2. 역방향 전파 (Backward Propagation)

다층 신경망 모델에서 잔차 학습은 기울기 소실 문제를 완화하는 데 도움을 준다. 잔차 블록의 입력

x_{\ell}

에 대한 손실 함수

\mathcal{E}

의 편미분을 고려하면, 잔차 블록

L>\ell

에 대한 순전파 방정식을 통해 다음과 같은 식을 얻을 수 있다.^[6]

:

\begin{align}  \frac{\partial \mathcal{E} }{\partial x_{\ell} }  & = \frac{\partial \mathcal{E} }{\partial x_{L} }\frac{\partial x_{L} }{\partial x_{\ell} } \\  & = \frac{\partial \mathcal{E} }{\partial x_{L} } \left( 1 + \frac{\partial }{\partial x_{\ell} } \sum_{i=\ell}^{L-1} F(x_{i}) \right) \\  & = \frac{\partial \mathcal{E} }{\partial x_{L} }  + \frac{\partial \mathcal{E} }{\partial x_{L} } \frac{\partial }{\partial x_{\ell} } \sum_{i=\ell}^{L-1} F(x_{i})\end{align}

이 공식은 얕은 레이어

\frac{\partial \mathcal{E} }{\partial x_{\ell} }

의 기울기 계산에 항상

\frac{\partial \mathcal{E} }{\partial x_{L} }

항이 직접 더해진다는 것을 보여준다.

F(x_{i})

항의 기울기가 작더라도 총 기울기

\frac{\partial \mathcal{E} }{\partial x_{\ell} }

는

\frac{\partial \mathcal{E} }{\partial x_{L} }

항이 더해지기 때문에 기울기 소실에 저항성을 갖게 된다.^[6]

동일성 매핑을 도입하면 순방향 및 역방향 경로에서 신호 전파가 쉬워진다.^[39]

3. 잔차 블록의 변형

잔차 블록은 기본 블록, 병목 블록 등 다양한 형태로 변형되어 사용된다.

3. 1. 기본 블록 (Basic Block)

''기본 블록''은 최초의 ResNet에서 연구된 가장 기본적인 구성 요소이다.^[1] 이 블록은 두 개의 순차적인 3x3 합성곱 계층과 잔차 연결로 구성된다. 두 계층의 입력 및 출력 차원은 같다.

ResNet (2015)의 블록 다이어그램. 1x1 합성곱이 있는 경우와 없는 경우의 ResNet 블록을 보여준다. 1x1 합성곱(stride 포함)은 배열의 형태를 변경하는 데 사용될 수 있으며, 이는 업샘플링/다운샘플링 계층을 통한 잔차 연결에 필요하다.

3. 2. 병목 블록 (Bottleneck Block)

'''병목 블록'''^[1]은 세 개의 순차적인 합성곱 계층과 잔차 연결로 구성된다. 이 블록의 첫 번째 계층은 차원 축소를 위한 1x1 합성곱(예: 입력 차원의 1/2)이다. 두 번째 계층은 3x3 합성곱을 수행한다. 마지막 계층은 차원 복원을 위한 또 다른 1x1 합성곱이다. ResNet-50, ResNet-101, ResNet-152 모델은 모두 병목 블록을 기반으로 한다.^[1]

3. 3. 사전 활성화 블록 (Pre-activation Block)

'''사전 활성화 잔차 블록'''^[6]은 잔차 함수

F

를 적용하기 전에 활성화 함수를 적용한다. 사전 활성화 잔차 블록의 계산은 다음과 같이 쓸 수 있다.

:

x_{\ell+1} = F(\phi(x_{\ell})) + x_{\ell}

여기서

\phi

는 ReLU와 같은 활성화 함수 또는 레이어 정규화와 같은 정규화 연산이 될 수 있다. 이 설계는 잔차 블록 간의 비-항등 매핑의 수를 줄인다. 이 설계는 200개에서 1000개 이상의 레이어를 가진 모델을 훈련하는 데 사용되었다.^[6]

GPT-2 이후, 트랜스포머 블록은 대부분 사전 활성화 블록으로 구현되었다. 이는 트랜스포머 모델 관련 문헌에서 종종 "사전 정규화"라고 불린다.^[7]

3. 4. 트랜스포머 블록 (Transformer Block)

GPT-2 이후, 트랜스포머 블록은 대부분 사전 활성화 블록으로 구현되었으며, 이는 트랜스포머 모델 문헌에서 종종 "사전 정규화"라고 불린다.^[7]

초기 GPT 모델에서 사용된 트랜스포머 아키텍처. 트랜스포머 블록은 멀티 헤드 어텐션 블록과 피드 포워드 다층 퍼셉트론(MLP) 블록의 두 개의 잔차 블록으로 구성된다.

트랜스포머 블록은 두 개의 잔차 블록을 쌓아 올린 것이다. 각 잔차 블록은 잔차 연결을 갖는다. 첫 번째 잔차 블록은 멀티 헤드 어텐션 블록으로, (자기) 어텐션 계산 후 선형 투영을 수행한다.

두 번째 잔차 블록은 피드 포워드 다층 퍼셉트론(MLP) 블록이다. 이 블록은 "역" 병목 블록과 유사하며, 차원을 증가시키는 선형 사영층(이는 컨볼루션 신경망의 맥락에서 1x1 컨볼루션에 해당)과 차원을 감소시키는 또 다른 선형 사영층을 갖는다.

트랜스포머 블록의 깊이는 4층(선형 투영)이다. GPT-3 모델에는 96개의 트랜스포머 블록이 있다(트랜스포머 문헌에서는 트랜스포머 블록을 종종 "트랜스포머 레이어"라고 부른다). 이 모델은 트랜스포머 블록의 96x4층과 입력 임베딩 및 출력 예측을 위한 여분의 층을 포함하여 약 400개의 투영층 깊이를 갖는다.

매우 깊은 트랜스포머 모델은 잔차 연결 없이는 잘 학습될 수 없다.^[42]

4. 역사

2012년에 ImageNet용으로 개발된 AlexNet 모델은 8층의 합성곱 신경망이었다. 옥스퍼드 대학교의 Visual Geometry Group(VGG)이 2014년에 개발한 신경망은 3×3의 합성곱층을 겹쳐서 19층의 깊이에 가까워졌다.^[37] 그러나 더 많은 층을 쌓는 것은 학습 정확도의 빠른 저하로 이어졌는데, 이를 "저하" 문제라고 불렀다.^[38]

더 깊은 네트워크는 더 얕은 네트워크에 여분의 레이어를 쌓아서 구축할 수 있다면, 더 얕은 네트워크보다 학습 손실이 커질 이유는 없다. 만약 여분의 층을 항등 매핑으로 설정할 수 있다면, 깊은 네트워크는 얕은 네트워크와 같은 기능을 나타낼 것이다. 옵티마이저가 매개변수화된 층에 대해 항등 매핑에 가까워질 수 없다는 가설이 성립한다.

4. 1. 이전 연구 (Previous work)

신경해부학에서 잔차 연결이 관찰되었는데, 예를 들어 로렌테 데 노(1938)가 있다.^[13] 맥컬록과 피츠(1943)는 인공 신경망을 제안했고 잔차 연결을 가진 신경망을 고려했다.^[14]

1961년, 프랭크 로젠블라트는 건너뛰기 연결이 있는 3계층 다층 퍼셉트론(MLP) 모델을 설명했다.^[15] 이 모델은 "교차 결합 시스템"이라고 불렸고, 건너뛰기 연결은 교차 결합 연결의 한 형태였다.^[43]

1980년대 후반에는 신경망에서 "건너뛰기 계층" 연결이 사용되기도 했다. 랑과 위트브록(1988)은 각 계층이 이후의 모든 계층에 건너뛰기 연결되는 완전 연결 피드포워드 네트워크를 훈련시켰는데, 이는 이후의 DenseNet(2016)과 유사하다. 이 연구에서 잔차 연결은 x ↦ F(x) + P(x) 형태였으며, 여기서 P는 무작위로 초기화된 투영 연결이었다. 그들은 이를 "단축 연결"이라고 칭했다.

4. 2. 저하 문제 (Degradation Problem)

딥 러닝 초기에는 점점 더 깊은 모델을 훈련하려는 시도가 있었다. 주목할 만한 예로는 8개의 레이어를 가진 알렉스넷(2012)과 19개의 레이어를 가진 VGG-19(2014)가 있었다.^[23] 그러나 너무 많은 레이어를 쌓으면 훈련 정확도가 급격히 감소하여 "저하" 문제라고 알려졌다.^[1]

이론적으로, 네트워크를 더 깊게 만들기 위해 추가 레이어를 추가해도 더 높은 훈련 손실이 발생해서는 안 되지만, VGGNet에서 이런 현상이 발생했다.^[1] 추가 레이어를 항등 매핑으로 설정할 수 있다면, 더 깊은 네트워크는 얕은 네트워크와 동일한 기능을 나타낼 것이다. 옵티마이저가 파라미터화된 레이어에 대한 항등 매핑에 접근할 수 없다는 증거가 있으며, 잔차 연결의 이점은 기본적으로 항등 매핑을 허용하는 것이었다.^[6]

2012년에 ImageNet용으로 개발된 AlexNet 모델은 8층의 합성곱 신경망이었다. 옥스퍼드 대학교의 Visual Geometry Group(VGG)이 2014년에 개발한 신경망은 3×3의 합성곱층을 겹쳐서 19층의 깊이에 가까워졌다.^[37] 그러나, 더 많은 층을 쌓는 것은 학습 정확도의 빠른 저하로 이어졌는데 이를 "저하" 문제라고 불렀다.^[38]

더 깊은 네트워크가 더 얕은 네트워크에 여분의 레이어를 쌓아서 구축할 수 있다면, 더 얕은 네트워크보다 학습 손실이 커질 이유는 없다. 만약 여분의 층을 항등 매핑으로 설정할 수 있다면, 깊은 네트워크는 얕은 네트워크와 같은 기능을 나타낼 것이다. 옵티마이저는 매개변수화된 층에 대해 항등 매핑에 가까워질 수 없다는 가설이 성립한다.

4. 3. 후속 연구 (Subsequent work)

'''DenseNet''' (2016)^[26]은 각 계층의 출력을 이후의 각 계층의 입력에 연결한다.

:

x_{\ell+1} = F(x_1, x_2, \dots, x_{\ell-1}, x_{\ell})

'''Stochastic depth'''^[27]는 임의로 계층의 하위 집합을 삭제하고 신호가 identity skip 연결을 통해 전파되도록 하는 정규화 방법이다. ''DropPath''라고도 알려진 이 방법은 비전 변환기와 같은 딥 모델의 훈련을 정규화한다.^[28]

'''ResNeXt''' (2017)는 Inception 모듈을 ResNet과 결합했다.^[29]^[30]

'''Squeeze-and-Excitation Networks''' (2018)는 ResNet에 squeeze-and-excitation (SE) 모듈을 추가했다.^[31] SE 모듈은 컨볼루션 후에 적용되며,

\R^{H \times W \times C}

(높이, 너비, 채널) 형태의 텐서를 입력으로 사용한다. 각 채널은 평균화되어

\R^C

형태의 벡터가 된다. 그런 다음 이 벡터는 원래 텐서와 곱해지기 전에 다층 퍼셉트론 (''linear-ReLU-linear-sigmoid''와 같은 아키텍처)을 통과한다.

5. 응용

잔차 신경망은 원래 컴퓨터 비전을 위해 설계되었지만,^[1]^[30]^[8] 자연어 처리 등 다양한 분야에 응용되고 있다. 모든 변압기 아키텍처는 잔차 연결을 포함하는데,^[9] 실제로 매우 깊은 변압기는 잔차 연결 없이는 훈련될 수 없다.^[9]

원래 잔차 신경망 논문은 생물학적 시스템에서 영감을 받았다는 주장을 하지 않았지만, 이후 연구들은 잔차 신경망을 생물학적으로 타당한 알고리즘과 연관시켰다.^[10]^[11] 2023년 ''사이언스''에 게재된 연구^[12]는 곤충 뇌(구체적으로 초파리 유충의 뇌)의 완전한 커넥톰을 공개했는데, 이 연구는 잔차 신경망을 포함한 인공 신경망의 건너뛰기 연결과 유사한 "다층 지름길"을 발견했다.

5. 1. 컴퓨터 비전 (Computer Vision)

원래, 잔차 신경망은 컴퓨터 비전을 위해 설계되었다.^[1]^[30]^[8]

5. 2. 자연어 처리 (Natural Language Processing)

트랜스포머 아키텍처는 잔차 연결을 포함하며, 매우 깊은 변압기는 잔차 연결 없이는 훈련될 수 없다.^[9]

트랜스포머 블록은 두 개의 잔차 블록을 쌓아 올린 것이다. 각 잔차 블록은 잔차 연결을 갖는다. 첫 번째 잔차 블록은 멀티 헤드 어텐션 블록으로, (자기) 어텐션 계산 후 선형 투영을 수행한다.

두 번째 잔차 블록은 피드 포워드 다층 퍼셉트론(MLP) 블록이다. 이 블록은 "역" 병목 블록과 유사하며, 차원을 증가시키는 선형 사영층(이는 합성곱 신경망의 맥락에서 1x1 컨볼루션에 해당)과, 차원을 감소시키는 또 다른 선형 사영층을 갖는다.

트랜스포머 블록의 깊이는 4층(선형 투영)이다. GPT-3 모델에는 96개의 트랜스포머 블록이 있다(트랜스포머 문헌에서는 트랜스포머 블록을 종종 "트랜스포머 레이어"라고 부른다). 이 모델은 트랜스포머 블록의 96x4층과 입력 임베딩 및 출력 예측을 위한 여분의 층을 포함하여, 약 400개의 투영층 깊이를 갖는다.

매우 깊은 트랜스포머 모델은 잔차 연결 없이는 잘 학습될 수 없다.^[42]

6. 생물학적 관계

최초의 잔차 신경망 논문은 생물학적 시스템에 시사하는 바가 있다고 주장하지 않았다. 그러나 이후의 연구에서 잔차 신경망은 생물학적으로 타당한 알고리즘과 연관되게 되었다.^[44]^[45]

2023년 사이언스지에 발표된 연구에서는 곤충(초파리 유충) 뇌 전체의 커넥톰이 공개되었다. 이 연구에서는 ResNets를 포함한 인공 신경망의 스킵 연결과 유사한 "다층 숏컷"이 발견되었다.^[46]

참조

_[1] Conference Deep Residual Learning for Image Recognition https://openaccess.t[...]
_[2] 웹사이트 ILSVRC2015 Results https://image-net.or[...]
_[3] Conference ImageNet: A large-scale hierarchical image database
_[4] 간행물 Long short-term memory https://www.research[...]
_[5] Conference How to Start Training: The Effect of Initialization and Architecture https://proceedings.[...] Curran Associates, Inc. 2018
_[6] Conference Identity Mappings in Deep Residual Networks https://link.springe[...]
_[7] 웹사이트 Language models are unsupervised multitask learners https://cdn.openai.c[...] 2020-12-19
_[8] Conference Inception-v4, Inception-ResNet and the impact of residual connections on learning https://cdn.aaai.org[...]
_[9] Conference Attention is not all you need: pure attention loses rank doubly exponentially with depth http://proceedings.m[...] PMLR
_[10] Arxiv Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex 2016
_[11] Conference Biologically-Plausible Learning Algorithms Can Scale to Large Datasets 2019
_[12] 간행물 The connectome of an insect brain 2023-03-10
_[13] 간행물 Analysis of the Activity of the Chains of Internuncial Neurons https://www.physiolo[...] 1938-05-01
_[14] 간행물 A logical calculus of the ideas immanent in nervous activity https://link.springe[...] 1943-12-01
_[15] 서적 Principles of neurodynamics. perceptrons and the theory of brain mechanisms https://safari.ethz.[...] 1961
_[16] 서적 "Learning internal representations by error propagation"
_[17] 서적 Modern Applied Statistics with S-Plus https://books.google[...] Springer 1994
_[18] 간행물 Learning to tell two spirals apart https://gwern.net/do[...]
_[19] 학위논문 Untersuchungen zu dynamischen neuronalen Netzen http://www.bioinf.jk[...] Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber
_[20] 간행물 Learning to Forget: Continual Prediction with LSTM
_[21] Arxiv Highway Networks 2015-05-03
_[22] Conference Training Very Deep Networks https://proceedings.[...]
_[23] Arxiv Very Deep Convolutional Networks for Large-Scale Image Recognition 2015-04-10
_[24] Conference Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification https://openaccess.t[...]
_[25] 웹사이트 Microsoft researchers win ImageNet computer vision challenge https://blogs.micros[...] 2024-06-29
_[26] Conference Densely Connected Convolutional Networks https://openaccess.t[...]
_[27] Conference Deep Networks with Stochastic Depth https://link.springe[...]
_[28] Conference MPViT: Multi-Path Vision Transformer for Dense Prediction https://openaccess.t[...]
_[29] Conference Aggregated Residual Transformations for Deep Neural Networks https://openaccess.t[...]
_[30] 서적 Dive into deep learning Cambridge University Press 2024
_[31] Conference Squeeze-and-Excitation Networks https://openaccess.t[...] 2018
_[32] Conference Deep Residual Learning for Image Recognition 2015-12-10
_[33] Arxiv Highway Networks 2015-05-03
_[34] 간행물 Long short-term memory https://www.research[...]
_[35] 간행물 ImageNet: A large-scale hierarchical image database https://scholar.goog[...]
_[36] 웹사이트 ILSVRC2015 Results https://image-net.or[...]
_[37] arXiv Very Deep Convolutional Networks for Large-Scale Image Recognition
_[38] arXiv Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
_[39] arXiv Identity Mappings in Deep Residual Networks
_[40] arXiv Identity Mappings in Deep Residual Networks
_[41] 웹사이트 Language models are unsupervised multitask learners https://cdn.openai.c[...] 2019-02-14
_[42] arXiv Attention is not all you need: pure attention loses rank doubly exponentially with depth
_[43] 서적 Principles of neurodynamics. perceptrons and the theory of brain mechanisms https://safari.ethz.[...] 1961
_[44] conference Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex 2016
_[45] conference Biologically-Plausible Learning Algorithms Can Scale to Large Datasets 2018
_[46] journal The connectome of an insect brain 2023-03-10
_[47] 웹인용 내 남은 머리카락은 얼마?… AI 탈모진단법 등장 http://digitalchosun[...] 2022-11-20

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com