델타 규칙

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 델타 규칙의 유도
3. 델타 규칙과 한국의 인공지능 발전
- 3.1. 한국의 인공지능 연구 현황
- 3.2. 델타 규칙의 한계와 극복 노력
참조

1. 개요

델타 규칙은 경사 하강법을 사용하여 신경망의 출력을 최소화하는 방식으로 유도되는 가중치 업데이트 규칙이다. 오차 함수를 정의하고, 각 가중치에 대한 오차 함수의 편미분을 계산하여 가중치를 업데이트한다. 연쇄 법칙과 멱법칙을 활용하여 편미분 공식을 유도하며, 최종적으로 가중치 변화량은 오차, 학습률, 활성화 함수의 미분값, 입력값의 곱으로 표현된다.

더 읽어볼만한 페이지

신경망 - 환각 (인공지능)
인공지능 환각은 인공지능이 사실이 아닌 정보를 사실처럼 생성하는 현상으로, 대규모 언어 모델의 부정확한 정보 생성 문제를 설명하기 위해 사용되며, 데이터 불일치, 모델 오류, 훈련 데이터 부족 등이 원인으로 발생하여 다양한 완화 기술이 연구되고 있다.
신경망 - 신경가소성
신경가소성은 뇌의 구조와 기능이 경험, 학습, 손상에 따라 변화하는 능력이며, 시냅스 가소성, 구조적 가소성으로 나뉘어 뇌졸중, 학습 장애 등의 치료와 재활, 명상, 예술 활동 등 다양한 분야에 응용된다.
인공신경망 - 인공 뉴런
인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
인공신경망 - 퍼셉트론
퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.

2. 델타 규칙의 유도

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하려고 시도하여 파생된다. $j$ 개의 출력을 가진 신경망의 오차는 다음과 같이 측정할 수 있다.

: $E = \sum_{j} \tfrac{1}{2} \left(t_j-y_j\right)^2 .$

이 경우, 우리는 각 가중치에 대한 오차 함수의 기울기에 비례하여 뉴런의 "가중치 공간"(뉴런의 모든 가중치의 모든 가능한 값의 공간)을 이동하고자 한다. 이를 위해 우리는 각 가중치에 대한 오차의 편미분을 계산한다. $i$ 번째 가중치의 경우, 이 미분은 다음과 같이 쓸 수 있다.

: $\frac{\partial E}{ \partial w_{ji} } .$

우리는 $j$ 번째 뉴런에만 집중하고 있으므로, 합계를 생략하면서 위의 오차 공식을 대체할 수 있다.

: $\frac{\partial E}{ \partial w_{ji} } = \frac{ \partial }{ \partial w_{ji} } \left [\frac{1}{2} \left( t_j-y_j \right ) ^2 \right ]$

다음으로 우리는 연쇄 법칙을 사용하여 이것을 두 개의 미분으로 나눈다.

: $\frac{\partial E}{\partial w_{ji}} = \frac{ \partial \left ( \frac{1}{2} \left( t_j-y_j \right ) ^2 \right ) }{ \partial y_j } \frac{ \partial y_j }{ \partial w_{ji} }$

왼쪽 미분을 찾기 위해 멱법칙과 연쇄 법칙을 간단히 적용한다.

: $\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial w_{ji} }$

오른쪽 미분을 찾기 위해 다시 연쇄 법칙을 적용하고, 이번에는 $j$ 에 대한 총 입력 $h_j$ 에 대해 미분한다.

: $\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial h_j } \frac{ \partial h_j }{ \partial w_{ji} }$

$j$ 번째 뉴런의 출력 $y_j$ 는 뉴런의 활성화 함수 $g$ 가 뉴런의 입력 $h_j$ 에 적용된 것임을 주목하십시오. 따라서 $y_j$ 의 미분을 $h_j$ 에 대해 간단히 $g$ 의 1차 미분으로 쓸 수 있다.

: $\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \frac{ \partial h_j }{ \partial w_{ji} }$

다음으로 마지막 항에서 $h_j$ 를 모든 $k$ 가중치에 대한 합으로 다시 쓰고, 각 가중치 $w_{jk}$ 와 해당 입력 $x_k$ 를 곱한다.

: $\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \; \frac{ \partial}{ \partial w_{ji} } \!\!\left[ \sum_{i} x_i w_{ji} \right]$

우리는 $i$ 번째 가중치에만 관심을 가지므로, 합계에서 관련있는 유일한 항은 $x_i w_{ji}$ 입니다. 분명히,

: $\frac{ \partial (x_i w_{ji}) }{ \partial w_{ji} } = x_i.$

기울기에 대한 최종 방정식을 제공한다.

: $\frac{\partial E}{ \partial w_{ji} } = - \left ( t_j-y_j \right ) g'(h_j) x_i$

위에서 언급했듯이, 경사 하강법은 각 가중치에 대한 변경이 기울기에 비례해야 함을 알려줍니다. 비례 상수 $\alpha$ 를 선택하고 오차를 최소화하기 위해 기울기의 음의 방향으로 가중치를 이동할 수 있도록 마이너스 부호를 제거하면, 대상 방정식에 도달한다.

: $\Delta w_{ji}=\alpha(t_j-y_j) g'(h_j) x_i .$

2. 1. 오차 함수의 정의

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하려고 시도하여 파생된다. 출력 뉴런의 출력값(

y_j

)과 실제 목표값(

t_j

)의 차이를 통해 신경망의 오차(

E

)를 다음과 같이 정의할 수 있다.

:

E = \sum_{j} \tfrac{1}{2} \left(t_j-y_j\right)^2 .

여기서

j

는 출력 뉴런의 개수이다. 즉, 각 출력 뉴런의 오차를 제곱하여 합산하는 방식으로 전체 오차가 정의된다.

2. 2. 경사 하강법 적용

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하는 방식으로 파생된다. j개의 출력을 가진 신경망의 오차(E)는 다음과 같이 측정할 수 있다.

:

E = \sum_{j} \tfrac{1}{2} \left(t_j-y_j\right)^2 .

각 가중치에 대한 오차 함수의 기울기에 비례하여 뉴런의 "가중치 공간"을 이동시키기 위해 각 가중치에 대한 오차의 편미분을 계산한다. i번째 가중치의 경우, 이 미분은 다음과 같이 표현된다.

:

\frac{\partial E}{ \partial w_{ji} } .

j번째 뉴런에 집중하여 합계를 생략하고 오차 공식을 대체하면 다음과 같다.

:

\frac{\partial E}{ \partial w_{ji} } = \frac{ \partial  }{ \partial w_{ji} } \left [\frac{1}{2} \left( t_j-y_j \right ) ^2 \right ]

연쇄 법칙을 사용하여 위 식을 두 개의 미분으로 나눈다.

:

\frac{\partial E}{\partial w_{ji}} = \frac{ \partial \left ( \frac{1}{2} \left( t_j-y_j \right ) ^2 \right ) }{ \partial y_j } \frac{ \partial y_j }{ \partial w_{ji} }

왼쪽 미분은 멱법칙과 연쇄 법칙을 적용하여 구한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial w_{ji} }

오른쪽 미분은 다시 연쇄 법칙을 적용하여, j에 대한 총 입력

h_j

에 대해 미분한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial h_j } \frac{ \partial h_j }{ \partial w_{ji} }

j번째 뉴런의 출력

y_j

는 활성화 함수

g

가 입력

h_j

에 적용된 것이므로,

y_j

의 미분은

g

의 1차 미분으로 쓸 수 있다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \frac{ \partial h_j }{ \partial w_{ji} }

h_j

를 모든 k 가중치에 대한 합으로 다시 쓰고, 각 가중치

w_{jk}

와 해당 입력

x_k

를 곱한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \; \frac{ \partial}{ \partial w_{ji} } \!\!\left[ \sum_{i} x_i w_{ji} \right]

i번째 가중치에만 관심이 있으므로, 합계에서 유일하게 관련 있는 항은

x_i w_{ji}

이다. 따라서 다음과 같다.

:

\frac{ \partial (x_i w_{ji}) }{ \partial w_{ji} } = x_i.

최종적으로 기울기에 대한 방정식은 다음과 같다.

:

\frac{\partial E}{ \partial w_{ji} } = - \left ( t_j-y_j \right ) g'(h_j) x_i

경사 하강법은 각 가중치에 대한 변경이 기울기에 비례해야 함을 의미한다. 비례 상수

\alpha

를 선택하고 오차를 최소화하기 위해 기울기의 음의 방향으로 가중치를 이동하면, 다음의 델타 규칙식을 얻을 수 있다.

:

\Delta w_{ji}=\alpha(t_j-y_j) g'(h_j) x_i .

2. 3. 연쇄 법칙 활용

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하는 과정에서 도출된다. 신경망의 오차는 각 가중치에 대한 오차 함수의 편미분을 계산하여 측정할 수 있다.

연쇄 법칙을 사용하여 오차 함수의 편미분을 다음과 같이 분해할 수 있다.

:

\frac{\partial E}{\partial w_{ji}} = \frac{ \partial \left ( \frac{1}{2} \left( t_j-y_j \right ) ^2 \right ) }{ \partial y_j } \frac{ \partial y_j }{ \partial w_{ji} }

먼저 멱법칙과 연쇄 법칙을 적용하여 왼쪽 미분을 구한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial w_{ji} }

다음으로 연쇄 법칙을 다시 적용하여

j

에 대한 총 입력

h_j

에 대해 미분하여 오른쪽 미분을 구한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial h_j } \frac{ \partial h_j }{ \partial w_{ji} }

j

번째 뉴런의 출력

y_j

는 활성화 함수

g

가 입력

h_j

에 적용된 것이므로,

y_j

의 미분은

g

의 1차 미분으로 표현할 수 있다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \frac{ \partial h_j }{ \partial w_{ji} }

마지막 항에서

h_j

를 모든 가중치에 대한 합으로 다시 쓰고, 각 가중치와 해당 입력을 곱한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \; \frac{ \partial}{ \partial w_{ji} } \!\!\left[ \sum_{i} x_i w_{ji} \right]

i

번째 가중치에만 관심이 있으므로, 합계에서 관련 있는 유일한 항은

x_i w_{ji}

이고, 미분하면

x_i

가 된다. 따라서 기울기에 대한 최종 방정식은 다음과 같다.

:

\frac{\partial E}{ \partial w_{ji} } = - \left ( t_j-y_j \right ) g'(h_j) x_i

경사 하강법에 따라 각 가중치 변경은 기울기에 비례해야 한다. 비례 상수

\alpha

를 선택하고 오차를 최소화하기 위해 기울기의 음의 방향으로 가중치를 이동하면, 최종 방정식은 다음과 같다.

:

\Delta w_{ji}=\alpha(t_j-y_j) g'(h_j) x_i .

2. 4. 활성화 함수 미분

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하는 방식으로 유도된다. 출력 뉴런

j

의 오차(

E

)는 다음과 같이 정의된다.

:

E = \sum_{j} \tfrac{1}{2} \left(t_j-y_j\right)^2 .

여기서

t_j

는 목표 출력,

y_j

는 실제 출력을 나타낸다. 각 가중치(

w_{ji}

)에 대한 오차 함수의 기울기에 비례하여 '가중치 공간'을 이동시키기 위해, 오차의 편미분을 계산한다.

:

\frac{\partial E}{ \partial w_{ji} } = \frac{ \partial  }{ \partial w_{ji} } \left [\frac{1}{2} \left( t_j-y_j \right ) ^2 \right ]

연쇄 법칙을 적용하면 다음과 같이 두 개의 미분으로 분리할 수 있다.

:

\frac{\partial E}{\partial w_{ji}} = \frac{ \partial \left ( \frac{1}{2} \left( t_j-y_j \right ) ^2 \right ) }{ \partial y_j } \frac{ \partial y_j }{ \partial w_{ji} }

멱법칙과 연쇄 법칙을 통해 왼쪽 미분을 구하고, 오른쪽 미분은

j

에 대한 총 입력

h_j

에 대해 다시 연쇄 법칙을 적용한다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) \frac{ \partial y_j }{ \partial h_j } \frac{ \partial h_j }{ \partial w_{ji} }

j

번째 뉴런의 출력

y_j

는 활성화 함수

g

가 뉴런의 입력

h_j

에 적용된 것이므로,

y_j

의 미분은

g

의 1차 미분(

g'(h_j)

)으로 표현 가능하다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \frac{ \partial h_j }{ \partial w_{ji} }

h_j

를 모든

k

가중치에 대한 합으로 다시 쓰고,

i

번째 가중치에 대해서만 고려하면, 다음과 같다.

:

\frac{\partial E}{\partial w_{ji}} = - \left ( t_j-y_j \right ) g'(h_j) \; \frac{ \partial}{ \partial w_{ji} } \!\!\left[ \sum_{i} x_i w_{ji} \right] = - \left ( t_j-y_j \right ) g'(h_j) x_i

경사 하강법에 따라 각 가중치 변화는 기울기에 비례해야 한다. 비례 상수

\alpha

를 도입하고 오차를 최소화하기 위해 기울기의 음의 방향으로 가중치를 이동하면, 최종 델타 규칙 식이 도출된다.

:

\Delta w_{ji}=\alpha(t_j-y_j) g'(h_j) x_i .

여기서

g'(h_j)

는 활성화 함수의 미분값을 나타내며, 다양한 활성화 함수(시그모이드 함수, ReLU 함수 등)가 사용될 수 있다.

2. 5. 최종 가중치 업데이트 공식

델타 규칙은 경사 하강법을 통해 신경망의 출력을 최소화하는 과정에서 도출된다. 신경망의 오차는 출력값과 실제값의 차이를 제곱하여 계산한다. 각 가중치에 대한 오차 함수의 편미분을 계산하여 가중치 공간에서 오차를 줄이는 방향으로 이동한다.

오차 함수의 편미분은 연쇄 법칙과 멱법칙을 사용하여 계산할 수 있다. 먼저 오차 함수를 출력값에 대해 미분하고, 출력값을 가중치에 대해 미분한다. 출력값은 활성화 함수에 입력을 적용한 결과이므로, 활성화 함수의 미분값을 사용한다. 마지막으로, 입력값과 가중치의 곱의 합을 가중치에 대해 미분하여 입력값을 얻는다.

최종적으로 가중치 업데이트 공식은 다음과 같다.

:

\Delta w_{ji}=\alpha(t_j-y_j) g'(h_j) x_i .

여기서

\Delta w_{ji}

는 가중치 변화량,

\alpha

는 학습률,

(t_j-y_j)

는 오차,

g'(h_j)

는 활성화 함수의 미분값,

x_i

는 입력값을 나타낸다. 즉, 가중치 업데이트는 오차, 학습률, 활성화 함수의 미분값, 입력값의 곱으로 표현된다.

3. 델타 규칙과 한국의 인공지능 발전

3. 1. 한국의 인공지능 연구 현황

3. 2. 델타 규칙의 한계와 극복 노력

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

델타 규칙
기본 정보
언어	영어 (사실상)
사용 계층	인공 신경망
분야	머신 러닝
문제 유형	회귀 분석, 분류
지도 학습	해당
기반	경사 하강법
세부 사항
기타 이름	Widrow-Hoff 규칙, Least Mean Squares (LMS) 규칙
발명가	버나드 위드로와 마르시안 호프
파생	역전파 알고리즘
수식
업데이트 규칙	Δwᵢ = η (t - y) xᵢ
wᵢ	i번째 가중치
η	학습률
t	목표 출력
y	실제 출력
xᵢ	i번째 입력