딜루션 (신경망)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 희석 (Dilution)
- 2.1. 약한 희석 (Weak Dilution)
- 2.2. 강한 희석 (Strong Dilution)
3. 드롭아웃 (Dropout)
- 3.1. 드롭아웃의 원리
- 3.2. 드롭아웃과 희석의 관계
4. 구글의 드롭아웃 특허
5. 일반화 선형 네트워크 (Generalized Linear Network)
- 5.1. 약한 희석의 수학적 표현
- 5.2. 강한 희석의 수학적 표현
참조

1. 개요

딜루션(Dilution)은 신경망에서 연결(가중치)의 일부를 제거하는 기술을 의미하며, 제거되는 연결의 비율에 따라 약한 희석과 강한 희석으로 구분된다. 약한 희석은 제거되는 연결의 비율이 작아 평균장 이론으로 해결 가능하며, 강한 희석은 불확실성이 커진다. 딜루션은 가중치에 감쇠 노이즈를 추가하는 데 사용되기도 하며, 가중치 무작위 가지치기와 유사하지만, 딜루션은 네트워크가 학습을 지속하는 반면 가지치기는 일회성 작업이라는 차이가 있다. 딜루션과 유사한 기술로 드롭아웃(Dropout)이 있는데, 드롭아웃은 뉴런 자체를 무작위로 제거하는 방식으로, 가중치 행렬의 특정 행을 제거하는 약한 희석의 특수한 경우로 볼 수 있다. 구글은 드롭아웃 기술에 대한 특허를 보유하고 있다.

더 읽어볼만한 페이지

딥 러닝 - 질의 응답
질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다.
딥 러닝 - 딥페이크
딥페이크는 인공지능 기술을 활용하여 영상이나 이미지를 조작, 합성하여 실제와 구별하기 어렵게 만드는 기술이며, 가짜 뉴스, 명예훼손, 신원 위장 등 다양한 문제점을 야기한다.
인공신경망 - 인공 뉴런
인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
인공신경망 - 퍼셉트론
퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.

2. 희석 (Dilution)

희석은 드롭아웃의 일반화된 개념으로, 뉴런 간의 연결을 완전히 제거하는 대신 가중치를 조절하는 방식으로 작동한다. 희석은 일반적으로 '약한 희석'과 '강한 희석'으로 나뉜다.

약한 희석은 제거된 연결의 비율이 작을 때를 의미하고, 강한 희석은 이 비율이 클 때를 의미한다. 둘 사이의 명확한 구분은 없으며, 특정 사용 사례의 선례에 따라 달라지고 정확한 솔루션을 찾는 방법에 영향을 미친다.^[1]

때로는 희석이 입력에 감쇠 노이즈를 추가하는 데 사용되는데, 이 경우 약한 희석은 소량의 감쇠 노이즈를, 강한 희석은 더 많은 양의 감쇠 노이즈를 추가하는 것을 의미한다. 이 둘은 모두 가중치 희석의 변형으로 다시 쓸 수 있다.^[1]

이러한 기술은 가중치의 무작위 가지치기로 불리기도 하지만, 이는 일반적으로 일회성 단방향 작업이다. 희석 및 드롭아웃과 달리 가중치 가지치기는 네트워크가 계속 학습한다는 것을 의미하지 않는다. 반면 희석/드롭아웃에서는 기술이 적용된 후 네트워크가 계속 학습한다.

2. 1. 약한 희석 (Weak Dilution)

약한 희석은 제거된 연결의 유한한 비율이 작아 미세한 불확실성을 발생시키는 경우를 의미한다. 이 엣지 케이스는 평균장 이론으로 정확하게 해결할 수 있다.^[7] 약한 희석에서 가중치에 미치는 영향은 다음과 같이 설명할 수 있다.

:

\hat{w_{ij}} = \begin{cases} w_{ij},  & \mbox{with } P(c) \\ 0, & \mbox{otherwise} \end{cases}

:*

\hat{w_{ij}}

– 희석된 가중치

:*

w_{ij}

– 희석 전 실제 가중치

:*

P(c)

– 가중치를 유지할 확률인

c

의 확률

확률

P(c)

의 해석은 가중치를 유지하는 것에서 가중치를 제거하는 것으로 변경될 수도 있다.

벡터 표기법으로 이것은 다음과 같이 쓸 수 있다.

:

\hat{\mathbf{W}} = \operatorname{g} \left ( \mathbf{W}, c \right )

여기서 함수

\operatorname{g} ( \cdot )

는 이전 희석을 적용한다.

약한 희석에서는 가중치 중 작고 고정된 비율만 희석된다. 합의 항 수가 무한대(각 노드의 가중치)로 갈 때도 무한대이다(비율은 고정되어 있음). 따라서 평균장 이론을 적용할 수 있다. Hertz et al.의 표기법으로 이것은 다음과 같이 쓸 수 있다.^[7]

:

\left \langle h_i \right \rangle = c \sum_j w_{ij} \left \langle S_j \right \rangle

:*

\left \langle h_i \right \rangle

평균장 온도

:*

c

– 가중치를 유지할 확률에 대한 온도 조절 인자

:*

w_{ij}

– 희석 전 실제 가중치, 또한 Hebb 연결 강도라고도 함

:*

\left \langle S_j \right \rangle

– 평균 안정 평형 상태

이것이 유지되기 위한 몇 가지 가정이 있으며, 여기에는 나열되지 않았다.^[5]^[6]

2. 2. 강한 희석 (Strong Dilution)

강한 희석은 제거되는 연결의 비율이 클 때를 의미한다. 강한 희석과 약한 희석 사이의 한계는 명확하게 구분되지 않으며, 종종 특정 사용 사례의 선례에 따라 달라지고 정확한 솔루션을 찾는 방법에 영향을 미친다.^[1]

때로는 입력에 감쇠 노이즈를 추가하는 데 희석이 사용되는데, 이 경우 강한 희석은 더 많은 양의 감쇠 노이즈를 추가하는 것을 의미한다. 이는 가중치 희석의 변형으로 다시 작성할 수 있다.^[1]

희석이 강할 때 제거된 연결(가중치)의 유한 분율이 커져 큰 불확실성이 발생한다.^[1]

3. 드롭아웃 (Dropout)

드롭아웃은 신경망 학습 시 뉴런 간 연결을 무작위로 제거하여 과적합을 방지하는 기법이다.^[7] 2012년 제프리 힌턴 등이 '드롭아웃'이라는 이름으로 처음 소개했으며,^[2] 현재 구글이 이 기술에 대한 특허를 보유하고 있다.^[8]^[9]

3. 1. 드롭아웃의 원리

드롭아웃은 가중치 행렬에서 행을 유지할 확률

c

인

P(c)

를 사용하여, 특정 가중치 행렬의 행(

\mathbf{w}_{j}

)을 유지하거나(

\mathbf{w}_{j}

) 제거(

\mathbf{0}

)하여 희석된 행(

\hat{\mathbf{w}_{j}}

)을 생성한다.^[1]

:

\hat{\mathbf{w}_{j}} =\begin{cases}\mathbf{w}_{j},  & \mbox{with } P(c) \\\mathbf{0}, & \mbox{otherwise}\end{cases}

^[1]

드롭아웃은 벡터 행렬에서 전체 행을 제거하므로, 약한 희석 가정과 평균장 이론은 적용되지 않는다.^[1]

노드를 0으로 만드는 방법(가중치 0 설정, 노드 제거 등)은 최종 결과에 영향을 미치지 않으며, 새로운 경우를 생성하지 않는다.^[1] 신경망 처리 방식(고성능 디지털 배열 곱셈기 또는 제한된 프로세서/아날로그 신경 형태 프로세서)에 따라 프로세스 그래프의 초반 또는 후반부에서 값을 0으로 만드는 것이 효율적일 수 있다.^[1]

3. 2. 드롭아웃과 희석의 관계

드롭아웃은 약한 희석 방정식의 특수한 경우로 볼 수 있다. 약한 희석에서는 가중치를 조절하는 반면, 드롭아웃은 신경망에서 뉴런 자체를 제거한다.

드롭아웃은 가중치 행렬에서 벡터 행렬의 전체 행을 제거하도록 조정된다.

:

\hat{\mathbf{w}_{j}} =\begin{cases}\mathbf{w}_{j},  & \mbox{with } P(c) \\\mathbf{0}, & \mbox{otherwise}\end{cases}

:*

P(c)

– 가중치 행렬에서 행을 유지할 확률

c

:*

\mathbf{w}_{j}

– 드롭아웃 전 가중치 행렬의 실제 행

:*

\hat{\mathbf{w}_{j}}

– 가중치 행렬의 희석된 행

드롭아웃은 벡터 행렬에서 전체 행을 제거하기 때문에, 약한 희석에 대한 가정과 평균장 이론의 사용은 적용할 수 없다.

노드를 0으로 만드는 과정은 가중치를 0으로 설정하거나, "노드를 제거"하는 등 어떤 수단을 사용하든 최종 결과에 영향을 미치지 않으며, 새롭고 고유한 경우를 생성하지 않는다.

4. 구글의 드롭아웃 특허

신경망 모델의 성능 향상을 위해 신경망의 뉴런 간 연결을 무작위로 제거하는 사례가 있었지만,^[7] 이 기술은 2012년 제프리 힌턴 등이 '드롭아웃'이라는 이름으로 처음 소개했다.^[2] 현재 구글(Google)이 드롭아웃 기술에 대한 특허를 보유하고 있다.^[8]^[9]

5. 일반화 선형 네트워크 (Generalized Linear Network)

인공 신경망에서 선형 노드 레이어의 출력은 가중치와 입력의 곱으로 표현될 수 있다. 이를 수식으로 나타내면 다음과 같다.

: $y_i = \sum_j w_{ij} x_j$

$y_i$ : 노드 $i$ 의 출력
$w_{ij}$ : 딜루션 전의 실수 가중치 (헵 연결 강도)
$x_j$ : 노드 $j$ 의 입력

벡터 표기법을 사용하면 다음과 같이 간단하게 표현할 수 있다.

:

\mathbf{y} = \mathbf{W} \mathbf{x}

$\mathbf{y}$ : 출력 벡터
$\mathbf{W}$ : 가중치 행렬
$\mathbf{x}$ : 입력 벡터

5. 1. 약한 희석의 수학적 표현

약한 희석에서 제거된 연결(가중치)의 유한한 비율은 작아 미세한 불확실성을 발생시킨다. 이 엣지 케이스는 평균장 이론으로 정확하게 해결할 수 있다. 약한 희석에서 가중치에 미치는 영향은 다음과 같이 설명할 수 있다.^[7]

:

\hat{w_{ij}} =\begin{cases}w_{ij},  & \mbox{with } P(c) \\0, & \mbox{otherwise}\end{cases}

:*

\hat{w_{ij}}

– 희석된 가중치

:*

w_{ij}

– 희석 전 실제 가중치

:*

P(c)

– 가중치를 유지할 확률인

c

의 확률

확률

P(c)

의 해석은 가중치를 유지하는 것에서 가중치를 제거하는 것으로 변경될 수도 있다.

벡터 표기법으로 이것은 다음과 같이 쓸 수 있다.

:

\hat{\mathbf{W}} = \operatorname{g} \left ( \mathbf{W}, c \right )

여기서 함수

\operatorname{g} ( \cdot )

는 이전 희석을 적용한다.

약한 희석에서는 가중치 중 작고 고정된 비율만 희석된다. 합의 항 수가 무한대(각 노드의 가중치)로 갈 때도 무한대이다(비율은 고정되어 있음). 따라서 평균장 이론을 적용할 수 있다. Hertz et al.^[7]의 표기법으로 이것은 다음과 같이 쓸 수 있다.

:

\left \langle h_i \right \rangle = c \sum_j w_{ij} \left \langle S_j \right \rangle

:*

\left \langle h_i \right \rangle

– 평균장 온도

:*

c

– 가중치를 유지할 확률에 대한 온도 조절 인자

:*

w_{ij}

– 희석 전 실제 가중치, 또한 Hebb 연결 강도라고도 함

:*

\left \langle S_j \right \rangle

– 평균 안정 평형 상태

이것이 유지되기 위한 몇 가지 가정이 있으며, 여기에는 나열되지 않았다.^[5]^[6]

5. 2. 강한 희석의 수학적 표현

강한 희석의 경우, 제거된 연결(가중치)의 유한 분율이 커져서 큰 불확실성이 발생한다.

참조

_[1] 논문 Regularization of Neural Networks using DropConnect https://proceedings.[...] 2013
_[2] arXiv Improving neural networks by preventing co-adaptation of feature detectors
_[3] 웹사이트 Dropout: A Simple Way to Prevent Neural Networks from Overfitting http://jmlr.org/pape[...]
_[4] arXiv An empirical analysis of dropout in piecewise linear networks 2013-12-20
_[5] 간행물 The theory of neural networks: The Hebb rule and beyond Springer Berlin Heidelberg 1987
_[6] 논문 Partially connected models of neural networks 1988-08-07
_[7] 서적 Introduction to the Theory of Neural Computation Addison-Wesley Pub. Co.
_[8] 특허 System and method for addressing overfitting in a neural network https://patents.goog[...]
_[9] 서적 Introduction to the Theory of Neural Computation 1991

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

딜루션 (신경망)
딜루션 (신경망)
개요
유형	정규화 기법
분야	신경망
목적	과적합 방지
방법	학습 과정 중 신경망의 일부 연결 또는 뉴런을 무작위로 제거 가중치 감소를 통한 정규화
상세 내용
드롭아웃 (Dropout)	신경망의 뉴런을 무작위로 제거하는 방법 제프리 힌턴 등에 의해 제안됨
드롭커넥트 (DropConnect)	신경망의 연결을 무작위로 제거하는 방법 리 완 등에 의해 제안됨
효과
과적합 방지	신경망의 일반화 성능 향상 다양한 입력에 대한 적응력 향상
앙상블 효과	드롭아웃/드롭커넥트는 여러 신경망을 앙상블하는 효과를 가짐 모델의 안정성 향상
참고 문헌