홉필드 네트워크

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 구조
4. 동작
5. 에너지 함수
6. 학습
- 6.1. 헤브 학습 규칙
- 6.2. 스토키 학습 규칙
7. 수렴 및 용량
- 7.1. 수렴 성질
- 7.2. 저장 용량
8. 현대적 홉필드 네트워크 (밀집 연상 기억)
- 8.1. 이산 변수 모델
- 8.2. 연속 변수 모델
9. 응용
참조

1. 개요

홉필드 네트워크는 연상 기억 연구에서 시작되어, 패턴 인식, 최적화 문제 해결 등에 응용되는 인공 신경망의 한 종류이다. 1982년 존 홉필드에 의해 이진 활성화 함수를 사용하는 모델이 제시되었고, 이후 연속 활성화 함수로 확장되었다. 현대적 홉필드 네트워크는 기억 용량을 향상시켰으며, 이산 및 연속 변수를 사용하는 모델이 존재한다. 홉필드 네트워크는 에너지 함수를 최소화하는 방식으로 작동하며, 헤브 학습 규칙과 스토키 학습 규칙과 같은 다양한 학습 규칙을 통해 훈련될 수 있다. 외판원 순회 문제 해결 등 다양한 분야에 응용되고 있으며, 딥 러닝 모델 개발에도 활용되고 있다.

더 읽어볼만한 페이지

신경망 아키텍처 - 알렉스넷
알렉스넷은 2012년 이미지 인식 대회에서 우승하며 딥 러닝과 CNN의 중요성을 알린 모델이며, GPU를 활용하여 학습 속도를 높이고 8개의 층으로 구성되어 컴퓨터 비전과 딥 러닝 연구 발전에 기여했다.
신경망 아키텍처 - 볼츠만 머신
볼츠만 머신은 확률적 네트워크로, 연결된 유닛들이 네트워크 전체에 정의된 에너지를 가지며, 학습을 통해 외부 분포에 따라 전역 상태로 수렴하도록 가중치를 설정하고, 가시 유닛과 은닉 유닛으로 구성되어 다양한 변형이 개발되었다.

2. 역사

폐쇄 루프 상호 결합 퍼셉트론 네트워크. ''신경 역학의 원리'' (1961).

홉필드 네트워크는 여러 분야의 융합을 통해 발전했다. 연상 기억 개념은 인지 심리학에서 시작되었으며, 프랭크 로젠블랫의 퍼셉트론 연구와 W. K. 테일러, 칼 슈타인부흐, D. J. 윌쇼우, 테우보 코호넨 등의 연구를 통해 발전했다.^[1]^[2]^[3]^[4]^[5]^[6]^[7]^[8]^[9]

통계 역학의 이징 모델과 로이 J. 글라우버의 글라우버 역학 연구는 시간에 따라 변화하는 시스템을 이해하는 기반을 제공했다.^[10] 나카노 가오루, 아마리 준이치, William A. Little|윌리엄 A. 리틀^영어은 헤브 학습 규칙을 이징 모델에 적용하여 연상 기억 모델을 제안했다.^[11]^[12]^[13]^[14]

1982년 존 홉필드는 이진 활성화 함수를 사용하는 홉필드 네트워크를 발표하고,^[18] 1984년에는 연속 활성화 함수로 확장하면서,^[23] 통계 역학을 신경망 연구의 표준 모델로 만들었다. 2016년 디미트리 크로토프와 홉필드는 네트워크의 기억 저장 용량을 크게 향상시킨 현대적 호프필드 네트워크(밀집 연상 기억)를 개발했다.^[42] 2024년, 존 J. 홉필드와 제프리 힌튼은 기계 학습에 대한 공헌으로 노벨 물리학상을 수상했다.

2. 1. 연상 기억 연구의 초기

연상 기억의 개념은 인간의 인지 심리학, 특히 연상 기억 연구에서 기원한다.^[1] 프랭크 로젠블랫은 중간층에 헤브 학습 규칙에 따라 변하는 순환 연결을 가진 3층 퍼셉트론 네트워크인 "폐쇄 루프 상호 결합 퍼셉트론"을 연구했다.^[1]^[2]

1956년, W. K. 테일러는 헤브 학습으로 훈련된, 출력이 입력으로 다시 돌아오지 않는 연상 기억 모델을 제안했다.^[3] 1961년, 칼 슈타인부흐는 아이들의 학습 과정을 관찰하고 영감을 받아 Lernmatrix를 발표했다.^[4]^[5]^[6] Lernmatrix는 1963년에 영어로 번역되었다.^[7] 1969년, D. J. 윌쇼우 등은 "상관도"에 대한 유사한 연구를 수행했다.^[8] 1974년, 테우보 코호넨은 경사 하강법으로 연상 기억을 훈련시켰다.^[9]

2. 2. 통계 역학과의 만남

연상 기억 연구는 통계 역학 분야의 영향을 받았다. 1963년, 로이 J. 글라우버는 시간에 따라 진화하는 이징 모델(글라우버 역학)을 연구하여 시간 요소를 추가했다.^[10] 1971년, 나카노 가오루^[11]^[12]와 1972년 아마리 준이치^[13]는 독립적으로 헤브 학습 규칙에 따라 이징 모델의 가중치를 수정하는 것을 연상 기억 모델로 제안했다. 같은 아이디어는 1974년에 William A. Little|윌리엄 A. 리틀^영어에 의해 발표되었는데,^[14] 그는 1982년 논문에서 호프필드에 의해 인정받았다. 1975년, 스핀 글래스의 셰링턴-커크패트릭 모델^[17]은 무작위 초기화를 사용하는 호프필드 네트워크로 볼 수 있다.

2. 3. 홉필드 네트워크의 등장과 발전

1982년, 존 홉필드는 이진 활성화 함수를 사용하는 홉필드 네트워크를 발표하여, 통계 역학 이론을 신경망 연구에 적용하는 표준 모델을 제시했다.^[18] 1984년, 홉필드는 이를 연속 활성화 함수로 확장했다.^[23] 2016년, 디미트리 크로토프와 홉필드는 네트워크 역학과 에너지 함수의 변화를 통해 기억 저장 용량을 크게 향상시킨 현대적 호프필드 네트워크(밀집 연상 기억)를 제안했다.^[42] 2024년, 존 J. 홉필드와 제프리 힌튼은 홉필드 네트워크와 같은 기계 학습에 대한 기초적인 공헌으로 노벨 물리학상을 수상했다.

3. 구조

홉필드 네트워크의 유닛은 이진 임계값 유닛(binary threshold unit)이다. 즉, 각 유닛은 상태에 대해 두 가지 값만 가진다. 일반적으로 1 또는 -1의 값을 가지지만, 다른 문헌에서는 0과 1의 값을 사용하기도 한다.^[1] 이산 홉필드 네트워크는 이진(발화 또는 비발화) 뉴런 $1, 2, \ldots, i, j, \ldots, N$ 간의 관계를 설명한다.^[18]

특정 시간에 신경망의 상태는 벡터

V

로 표현되는데, 이 벡터는

N

비트의 이진 단어로 어떤 뉴런이 발화하는지를 나타낸다.

뉴런 간의 상호작용

w_{ij}

는 보통 1 또는 -1의 값을 가진다. 이러한 상호작용은 헤브의 연합 법칙을 통해 "학습"된다.

홉필드 네트워크의 연결은 일반적으로 다음과 같은 제약 조건을 갖는다.

$w_{ii}=0, \forall i$ (어떤 유닛도 자신과 연결되지 않음)
$w_{ij} = w_{ji}, \forall i,j$ (연결이 대칭적임)

가중치가 대칭적이라는 제약 조건은 활성화 규칙을 따르는 동안 에너지 함수가 단조롭게 감소한다.^[22]

홉필드 네트워크는 모든 유닛 쌍 ''i''와 ''j''가 연결 가중치

w_{ij}

로 설명되는 연결을 갖는 완전 무향 그래프

G = \langle V, f\rangle

로 표현될 수 있다. 여기서

V

는 맥컬록-피츠 뉴런의 집합이고,

f:V^2 \rightarrow \mathbb R

은 유닛 쌍을 실수 값인 연결 가중치에 연결하는 함수이다. 각 유닛은 McCulloch-Pitts 형 입력-출력 특성을 갖는다.

시간 슬라이스

t

에서,

$w_{ij}(t)$ : 유닛 j에서 i로의 결합 계수
$- \theta_{i}(t)$ : 유닛 i의 임계값
$x_{i}(t)$ : 유닛 i의 출력

(이때, 모든 i, j 쌍에 대해, i ≠ j이면

w_{ij}(t)=w_{ji}(t)

, i = j이면

w_{ij}(t)=0

이다.)

네트워크 전체의 에너지

E(t)

는 다음과 같이 정의된다.

:

E(t) = -{1 \over 2}{\sum_{i \ne j} {w_{ij}{x_{i}(t)}{x_{j}(t)}}} - \sum_{i} {\theta_{i}(t)}{x_{i}(t)}

4. 동작

홉필드 네트워크의 유닛은 이진 임계값을 가진다.^[18] 즉, 각 유닛은 입력이 임계값 $U_i$ 를 초과하는지 여부에 따라 -1 또는 1의 두 가지 값 중 하나의 상태를 가진다. 홉필드 네트워크는 이진(발화 또는 비발화) 뉴런 $1,2,\ldots,i,j,\ldots,N$ 간의 관계를 설명한다. 네트워크의 상태는 벡터 $V$ 로 나타내어지는데, 이는 어떤 뉴런이 발화하는지를 나타내는 $N$ 비트의 이진 단어이다.

뉴런 간의 상호작용 $w_{ij}$ 는 보통 1 또는 -1의 값을 가지며, 이 값은 "학습"을 통해 정해진다. 네트워크가 학습된 후에는 $w_{ij}$ 값은 변하지 않는다. 새로운 뉴런 상태 $V^{s'}$ 가 네트워크에 주어지면, 각 뉴런의 상태는 다음 규칙에 따라 업데이트된다.

$V^{s'}_i \rightarrow 1$ (만약 $\sum_j w_{ij} V^{s'}_j > U_i$ 인 경우)
$V^{s'}_i \rightarrow -1$ (만약 $\sum_j w_{ij} V^{s'}_j < U_i$ 인 경우)

여기서

U_i

는 i번째 뉴런의 임계값이며, 보통 0으로 설정된다.^[21]

홉필드 네트워크에서 유닛(인공 뉴런)을 업데이트하는 규칙은 다음과 같다.

s_i \leftarrow \left\{\begin{array}{ll} +1 & \text{if }\sum_{j}{w_{ij}s_j}\geq\theta_i, \\

1 & \text{otherwise.}\end{array}\right.

여기서:

$w_{ij}$ 는 유닛 j에서 유닛 i로의 연결 가중치이다.
$s_i$ 는 유닛 i의 상태이다.
$\theta_i$ 는 유닛 i의 임계값이다.

업데이트는 다음 두 가지 방식으로 수행될 수 있다.

비동기적: 한 번에 하나의 유닛만 업데이트된다. 업데이트할 유닛은 무작위로 선택되거나 미리 정해진 순서에 따를 수 있다.
동기적: 모든 유닛이 동시에 업데이트된다. 이 방식은 중앙 시계가 필요하며, 생물학적 시스템에서는 전역 시계가 관찰되지 않기 때문에 덜 현실적인 것으로 여겨지기도 한다.

두 뉴런 i와 j 사이의 가중치

w_{ij}

가 양수이면, 뉴런 값은 수렴하는 경향이 있고, 음수이면 발산하는 경향이 있다.

홉필드 네트워크의 초기화는 유닛의 값을 원하는 시작 패턴으로 설정하는 방식으로 이루어진다. 이후 네트워크는 인력자 패턴으로 수렴할 때까지 반복적으로 업데이트된다. 홉필드는 이 비선형 동역학계의 인력자들이 안정적이며 주기적이거나 혼돈적이지 않다는 것을 증명했으므로, 일반적으로 수렴이 보장된다. 따라서 홉필드 네트워크에서 인력자 패턴은 최종 안정 상태를 의미하며, 업데이트 과정에서 더 이상 값이 변하지 않는 패턴이다.

시간 슬라이스

t

에서 각 요소는 다음과 같다.

$w_{ij}(t)$ : 유닛 j에서 i로의 결합 계수
$- \theta_{i}(t)$ : 유닛 i의 임계값
$x_{i}(t)$ : 유닛 i의 출력
i ≠ j이면 $w_{ij}(t)=w_{ji}(t)$ , i = j이면 $w_{ij}(t)=0$

네트워크 전체의 에너지

E(t)

는 다음과 같이 정의된다.

:

E(t) = -{1 \over 2}{\sum_{i \ne j} {w_{ij}{x_{i}(t)}{x_{j}(t)}}} - \sum_{i} {\theta_{i}(t)}{x_{i}(t)}

모델은 다음과 같이 동작한다.

1. 임의로 유닛 하나를 선택한다.

2. 해당 유닛에 대한 입력의 가중치 합을 계산한다.

3. 결과에 따라 유닛의 출력을 갱신한다.

임계값보다 크면 1
임계값과 같으면 현재 값 유지
임계값보다 작으면 0
(다른 유닛은 변경하지 않음)

4. t를 증가시키고 1번으로 돌아간다.

이때,

E(t)

는 t가 증가함에 따라 단조 감소한다.

5. 에너지 함수

홉필드 네트워크는 네트워크의 각 상태에 대해 "에너지" ''E''라는 스칼라 값을 가지며, 다음과 같이 정의된다.

: $E = -\frac12\sum_{i,j} w_{ij} s_i s_j -\sum_i \theta_i s_i$

이 값은 네트워크 단위가 업데이트될 때 감소하거나 동일하게 유지되기 때문에 "에너지"라고 한다.^[18] 또한, 반복적인 업데이트를 통해 네트워크는 결국 에너지 함수의 극소값인 상태로 수렴한다. 이 에너지 함수는 이징 모델이라는 일반적인 모델 클래스에 속한다. 따라서, 상태가 에너지 함수의 극소값이면 네트워크에 대한 안정적인 상태이다.

홉필드와 탱크는 1985년 외판원 순회 문제 해결에 홉필드 네트워크를 적용하는 방법을 제시했다.^[27] 그 이후로 홉필드 네트워크는 최적화에 널리 사용되어 왔다. 최적화 문제에 홉필드 네트워크를 사용하는 방법은, 제약 조건이 있거나 없는 비용 함수를 홉필드 에너지 함수 E의 형태로 표현하는 것이다. 이렇게 하면, 제약 조건이 있거나 없는 최적화 문제의 해를 나타내는 평형점을 갖는 홉필드 네트워크가 존재한다. 홉필드 에너지 함수를 최소화하면 목적 함수를 최소화하고 제약 조건 또한 만족하는데, 이는 제약 조건이 네트워크의 시냅스 가중치에 "내장"되기 때문이다. 다양한 분야에서 제약 조건이 있는 많은 어려운 최적화 문제가 홉필드 에너지 함수로 변환되었다. 하지만 어려운 최적화 문제를 홉필드 에너지 함수로 변환할 수 있다고 해서 해로의 수렴을 보장하는 것은 아니다.^[28]

홉필드 네트워크의 에너지 지형. 네트워크의 현재 상태(언덕 위), 결국 수렴할 매력자 상태, 최소 에너지 레벨, 녹색으로 음영 처리된 매력의 분지가 강조 표시되어 있습니다. 홉필드 네트워크의 업데이트는 항상 에너지가 감소하는 방향으로 진행됨을 주목하십시오.

6. 학습

홉필드 네트워크를 훈련하는 것은 네트워크가 "기억"해야 하는 상태들의 에너지를 낮추는 것을 의미한다. 이를 통해 네트워크는 내용 주소 지정 메모리(content-addressable memory) 시스템으로 작동할 수 있다. 즉, 네트워크는 상태의 일부만 주어지더라도 "기억된" 상태로 수렴한다. 이는 유사성을 기반으로 기억을 복구하기 때문에 연상 기억이라고 한다. 예를 들어, 5개의 유닛으로 홉필드 네트워크를 훈련하여 (1, −1, 1, −1, 1) 상태가 에너지 최소값이 되도록 하고, 네트워크에 (1, −1, −1, −1, 1) 상태를 제공하면 (1, −1, 1, −1, 1)로 수렴한다. 따라서 네트워크가 기억해야 하는 상태의 에너지가 국소적 최소값일 때 네트워크는 제대로 훈련된 것이다. 퍼셉트론 훈련과 달리 뉴런의 임계값은 절대 업데이트되지 않는다.^[31]

홉필드 네트워크의 기억에 정보를 저장하는 데 사용할 수 있는 다양한 학습 규칙이 있다. 학습 규칙은 일반적으로 다음과 같은 특성을 갖는 것이 바람직하다.

국소적(Local): 각 가중치가 특정 가중치와 관련된 연결의 양쪽 뉴런에서 사용 가능한 정보를 사용하여 업데이트된다.
증분적(Incremental): 훈련에도 사용된 이전 패턴의 정보를 사용하지 않고도 새로운 패턴을 학습할 수 있다. 즉, 새로운 패턴을 훈련에 사용할 때 가중치의 새로운 값은 이전 값과 새로운 패턴에만 의존한다.

이러한 특성은 바람직한데, 이러한 특성을 만족하는 학습 규칙이 생물학적으로 더 타당하기 때문이다. 예를 들어, 인간의 뇌는 항상 새로운 개념을 학습하기 때문에 인간의 학습은 증분적이라고 추론할 수 있다. 증분적이지 않은 학습 시스템은 일반적으로 방대한 양의 훈련 데이터를 사용하여 한 번만 훈련된다.^[31]

6. 1. 헤브 학습 규칙

헤브의 가설은 1949년 도널드 헤브(Donald Hebb)가 뉴런 세포의 동시 활성화가 해당 세포 간 시냅스 강도의 현저한 증가로 이어지는 "연합 학습"을 설명하기 위해 제시했다.^[29] 이는 종종 "함께 발화하는 뉴런은 함께 연결된다. 동시에 발화하지 않는 뉴런은 연결되지 않는다"라고 요약된다.

헤브 규칙은 국소적이고 증분적이다. 여기서 국소적(Local)이라는 것은 각 가중치가 특정 가중치와 관련된 연결의 양쪽 뉴런에서 사용 가능한 정보를 사용하여 업데이트됨을 의미하고, 증분적(Incremental)이라는 것은 훈련에도 사용된 이전 패턴의 정보를 사용하지 않고도 새로운 패턴을 학습할 수 있다는 것을 의미한다. 홉필드 네트워크에서 헤브 규칙은

n

개의 이진 패턴을 학습할 때 다음과 같이 구현된다.

w_{ij}=\frac{1}{n}\sum_{\mu=1}^{n}\epsilon_{i}^\mu \epsilon_{j}^\mu

여기서

\epsilon_i^\mu

는 패턴

\mu

의 i번째 비트를 나타낸다.

뉴런 i와 j에 해당하는 비트가 패턴

\mu

에서 같다면, 곱

\epsilon_{i}^\mu \epsilon_{j}^\mu

는 양수가 된다. 이는 결과적으로 가중치

w_{ij}

에 양의 영향을 미치고 i와 j의 값이 같아지는 경향이 있다. 뉴런 i와 j에 해당하는 비트가 다르면 반대의 현상이 발생한다.

6. 2. 스토키 학습 규칙

아모스 스토키(Amos Storkey)가 1997년에 제안한 학습 규칙은 국소적이고 증분적이다.^[30] 스토키는 이 규칙으로 훈련된 홉필드 네트워크가 헤브 규칙으로 훈련된 네트워크보다 더 큰 용량을 가짐을 보였다.^[30] 인력 신경망의 가중치 행렬이 다음을 만족하면 스토키 학습 규칙을 따른다고 한다.

:

w_{ij}^{\nu} = w_{ij}^{\nu-1}+\frac{1}{n}\epsilon_{i}^{\nu} \epsilon_{j}^{\nu}

\frac{1}{n}\epsilon_{i}^{\nu} h_{ji}^{\nu}
\frac{1}{n}\epsilon_{j}^{\nu} h_{ij}^{\nu}

여기서

h_{ij}^{\nu} = \sum_{k=1~:~i\neq k\neq j}^{n} w_{ik}^{\nu-1}\epsilon_{k}^{\nu}

는 뉴런 i에서의 ''국소장''^[31]의 한 형태이다.

스토키 학습 규칙은 시냅스가 인접 뉴런만을 고려하므로 국소적이다. 이 규칙은 국소장의 영향으로 일반화된 헤브 규칙보다 패턴과 가중치로부터 더 많은 정보를 사용한다.

7. 수렴 및 용량

브룩(Bruck)은 1990년 논문에서 이산 홉필드 네트워크와 관련된 그래프의 컷(cut) 간의 관계를 바탕으로 일반화된 수렴 정리를 증명했다.^[24] 이 정리는 비동기 및 동기 동역학을 모두 포함하며, 그래프에서 최대 컷(max-cut)을 위한 탐욕 알고리즘에 기반한 증명을 제시했다. 이후 연구에서는 최적화 과정 중 에너지 함수가 최소화될 때 이산 시간 및 연속 시간 홉필드 네트워크에서 뉴런의 동작을 조사했다.^[25]

홉필드 네트워크 모델의 네트워크 용량은 뉴런 수와 연결 수에 따라 결정된다. 저장 가능한 기억의 수는 뉴런과 연결 수에 비례한다. 벡터와 노드 간의 재현 정확도는 0.138이다. 즉, 약 1000개의 노드당 138개의 벡터를 저장소에서 재현할 수 있다. 하지만 많은 벡터를 저장하려고 하면 오류가 발생할 수 있다. 홉필드 모델이 올바른 패턴을 재현하지 못하는 경우, 의미적으로 관련된 항목이 혼란을 야기하여 잘못된 패턴을 회상할 수 있다.

Storkey 학습 방법을 사용하면 완벽한 재현과 높은 용량(0.14 초과)을 네트워크에 로드할 수 있다.^[34]^[35] ETAM 실험도 진행되었다.^[36] 홉필드 네트워크에서 영감을 받은 후속 모델들은 저장 용량을 높이고 검색 오류율을 줄이기 위해 고안되었으며, 일부는 원샷 학습이 가능하다.^[37]

저장 용량은 $C \cong \frac{n}{2\log_2n}$ 로 나타낼 수 있다. 여기서 $n$ 은 네트워크의 뉴런 수이다.

7. 1. 수렴 성질

브룩(Bruck)은 1990년 논문에서 이산 홉필드 네트워크를 연구하고 네트워크 동역학과 관련 그래프의 컷(cut) 간의 관계에 기반한 일반화된 수렴 정리를 증명했다.^[24] 이 일반화는 비동기 및 동기 동역학을 모두 포함하며 그래프에서 최대 컷(max-cut)을 위한 탐욕 알고리즘에 기반한 기본적인 증명을 제시했다. 후속 논문에서는 최적화 과정 중 에너지 함수가 최소화될 때 이산 시간 및 연속 시간 홉필드 네트워크에서 임의의 뉴런의 동작을 추가로 조사했다.^[25]

브룩은 뉴런 ''j''가 다음과 같은 편향된 의사 컷(biased pseudo-cut)을 더 감소시키는 경우에만 상태를 변경함을 보였다.^[24] 이산 홉필드 네트워크는 홉필드 네트워크의 시냅스 가중치 행렬에 대해 다음과 같은 편향된 의사 컷을 최소화한다.^[25]

:

J_{pseudo-cut}(k) =\sum_{i \in C_1(k)} \sum_{j \in C_2(k)} w_{ij} + \sum_{j \in C_1(k)} {\theta_j}

여기서

C_1(k)

와

C_2(k)

는 시간

k

에서 각각 −1과 +1인 뉴런의 집합을 나타낸다.

이산 시간 홉필드 네트워크는 항상 다음 의사 컷을 정확하게 최소화한다.^[24]^[25]

:

U(k) = \sum_{i=1}^N \sum_{j=1}^{N} w_{ij} ( s_i(k) - s_j(k) )^2 + 2 \sum_{j=1}^N \theta_j s_j(k)

연속 시간 홉필드 네트워크는 항상 다음 가중 컷에 대한 상한을 최소화한다.^[25]

:

V(t) = \sum_{i=1}^N \sum_{j=1}^N w_{ij} ( f(s_i(t)) - f(s_j(t) )^2 + 2 \sum_{j=1}^N \theta_j f(s_j(t))

여기서

f(\cdot)

는 0을 중심으로 하는 시그모이드 함수이다.

반면에 복소 홉필드 네트워크는 일반적으로 네트워크의 복소 가중치 행렬의 소위 그림자 컷(shadow-cut)을 최소화하는 경향이 있다.^[26]

7. 2. 저장 용량

홉필드 네트워크 모델의 네트워크 용량은 주어진 네트워크 내의 뉴런 수와 연결 수에 따라 결정된다. 따라서 저장할 수 있는 기억의 수는 뉴런과 연결 수에 따라 달라진다. 벡터와 노드 간의 재현 정확도는 0.138이다(약 1000개의 노드당 138개의 벡터를 저장소에서 재현할 수 있음)(Hertz et al., 1991). 따라서 많은 벡터를 저장하려고 하면 많은 오류가 발생한다. 홉필드 모델이 올바른 패턴을 재현하지 못하는 경우, 의미적으로 관련된 항목이 개인을 혼란스럽게 하고 잘못된 패턴을 회상하는 경향이 있으므로 침입이 발생했을 가능성이 있다. 따라서 홉필드 네트워크 모델은 검색 시 저장된 항목을 다른 항목과 혼동하는 것으로 나타났다. Storkey 학습 방법을 사용하면 완벽한 재현과 높은 용량(0.14 초과)을 네트워크에 로드할 수 있다.^[34]^[35] ETAM 실험도 있다.^[36] 나중에 홉필드 네트워크에서 영감을 받은 후속 모델들이 저장 용량을 높이고 검색 오류율을 줄이기 위해 고안되었으며, 일부는 원샷 학습이 가능합니다.^[37]

저장 용량은

C \cong \frac{n}{2\log_2n}

로 나타낼 수 있다. 여기서

n

은 네트워크의 뉴런 수이다.

8. 현대적 홉필드 네트워크 (밀집 연상 기억)

현대적 홉필드 네트워크(밀집 연상 기억)는 고전적인 홉필드 네트워크를 일반화한 형태로, 기억 용량이 더 크고 학습 효율이 높다.^[42] 뉴런 간의 고차 상호작용을 포함하며, 더 강력한 비선형 에너지 함수 또는 뉴런 활성화 함수를 사용한다.^[42]^[44] 이러한 네트워크는 이산 변수나 연속 변수, 연속 시간을 사용하여 모델링할 수 있다.^[42]^[43]^[45]

현대적 홉필드 네트워크는 어텐션 메커니즘과의 관련성 덕분에 딥 러닝 분야에서 주목받고 있다.^[43]

8. 1. 이산 변수 모델

이진 변수

V_i

는 모델 뉴런

i

의 활성 상태(

V_i=+1

) 또는 비활성 상태(

V_i=-1

)를 나타낸다. 에너지 함수는 다음과 같이 정의된다.^[42]

:

E = - \sum\limits_{\mu = 1}^{N_\text{mem}} F\Big(\sum\limits_{i=1}^{N_f}\xi_{\mu i} V_i\Big)

위 식에서 가중치

\xi_{\mu i}

는 기억 벡터 행렬을 나타낸다. (색인

\mu = 1...N_\text{mem}

은 서로 다른 기억을, 색인

i=1...N_f

는

i

번째 특징 뉴런에 해당하는 각 기억의 내용을 나타낸다.) 함수

F(x)

는 빠르게 증가하는 비선형 함수이다.

개별 뉴런의 업데이트 규칙(비동기식인 경우)은 다음과 같다.^[42]

:

V^{(t+1)}_i = Sign\bigg[ \sum\limits_{\mu=1}^{N_\text{mem}} \bigg(F\Big(\xi_{\mu i} + \sum\limits_{j\neq i}\xi_{\mu j} V^{(t)}_j\Big) - F\Big(-\xi_{\mu i} + \sum\limits_{j\neq i}\xi_{\mu j} V^{(t)}_j\Big) \bigg)\bigg]

즉,

i

번째 뉴런의 업데이트된 상태를 계산하기 위해 네트워크는 나머지 뉴런의 상태를 고려하여

i

번째 뉴런이 ON/OFF 일 때의 네트워크 에너지를 비교한다.

i

번째 뉴런의 업데이트된 상태는 이 두 에너지 중 더 낮은 에너지를 갖는 상태를 선택한다.^[42]

8. 2. 연속 변수 모델

연속 변수와 연속 시간을 사용하여 홉필드 네트워크를 모델링할 수 있다.^[23] 이 모델에서는 뉴런의 상태가 시간에 따라 변하는 연속적인 값

V_i

로 표현된다. 네트워크의 동역학은 시스템의 "에너지"를 항상 감소시키는 1차 미분 방정식으로 나타내진다.^[23]

이 모델은 특징 뉴런과 기억(은닉) 뉴런 간의 상호 작용을 고려한다.^[45] 특징 뉴런의 전류는

x_i

, 기억 뉴런의 전류는

h_\mu

로 표시된다. 이들 간에는 직접적인 시냅스 연결이 없고,

\xi_{\mu i}

행렬이 특징 뉴런과 기억 뉴런 간의 시냅스 강도를 나타낸다. 활성화 함수

f_\mu

와

g_i

는 라그랑주 함수

L_h

와

L_x

의 도함수로 정의된다.

뉴런 상태의 진화는 다음 방정식으로 설명된다.^[45]

\begin{cases}

여기서

\tau_f

와

\tau_h

는 각 뉴런 그룹의 시간 상수,

I_i

는 입력 전류이다.

이 시스템의 에너지 함수는 다음과 같다.^[45]

E(t) = \Big[\sum\limits_{i=1}^{N_f} (x_i-I_i) g_i - L_x \Big] + \Big[\sum\limits_{\mu=1}^{N_h}  h_\mu f_\mu - L_h \Big] - \sum\limits_{\mu, i} f_\mu \xi_{\mu i} g_i

에너지 함수는 시간에 따라 감소하며, 이는 네트워크가 고정점 인력자 상태로 수렴함을 의미한다.^[45]

은닉 뉴런의 역학이 특징 뉴런보다 훨씬 빠른 시간 척도에서 평형에 도달하는 경우( $\tau_h\ll\tau_f$ ), 특징 뉴런만으로 구성된 유효 이론을 얻을 수 있다.^[45] 특히, 로그 합 지수 라그랑주 함수를 사용하면 특징 뉴런의 업데이트 규칙이 어텐션 메커니즘과 동일해진다.^[43] 이는 딥 러닝 모델에 응용될 수 있음을 시사한다.

연속 변수 모델은 고전적인 홉필드 네트워크^[23]를 은닉층이 하나 있는 현대적인 홉필드 네트워크의 특수한 경우로 해석할 수 있게 해준다.^[45]

9. 응용

홉필드와 탱크는 1985년에 외판원 순회 문제 해결에 홉필드 네트워크를 적용하는 방법을 제시하였다.^[27] 그 이후로 홉필드 네트워크는 최적화 문제 해결에 널리 사용되어 왔다. 제약 조건이 있거나 없는 비용 함수를 홉필드 에너지 함수 형태로 표현할 수 있다면, 해당 문제의 해를 나타내는 평형점을 갖는 홉필드 네트워크가 존재한다. 홉필드 에너지 함수를 최소화하면 목적 함수가 최소화되고 제약 조건 또한 만족되는데, 이는 제약 조건이 네트워크의 시냅스 가중치에 포함되기 때문이다.

다양한 분야에서 제약 조건이 있는 많은 어려운 최적화 문제들이 홉필드 에너지 함수로 변환되었다. 연상 기억 시스템, 아날로그-디지털 변환, 작업장 스케줄링 문제, 이차 할당 및 기타 관련 NP-완전 문제, 무선 네트워크의 채널 할당 문제, 이동 애드혹 네트워크 라우팅 문제, 영상 복원, 시스템 식별, 조합 최적화 등이 그 예이다.^[28] 그러나 어려운 최적화 문제를 홉필드 에너지 함수로 변환하는 것이 해로의 수렴을 보장하는 것은 아니다.^[28]

홉필드 네트워크는 인간의 연합 학습과 회상을 위한 모델로도 사용된다.^[38]^[39] 이는 기억 벡터의 통합을 통해 연합 기억을 설명한다.

참조

_[1] 간행물 Perceptual Generalization over Transformation Groups https://archive.org/[...] Pergamon Press
_[2] 서적 DTIC AD0256582: PRINCIPLES OF NEURODYNAMICS. PERCEPTRONS AND THE THEORY OF BRAIN MECHANISMS https://archive.org/[...] Defense Technical Information Center 1961-03-15
_[3] 간행물 Electrical simulation of some nervous system functional activities Butterworths
_[4] 웹사이트 Eulogy: 1917 Karl Steinbuch 2005 https://www.itiv.kit[...] 2005-08-00
_[5] 학술지 Die Lernmatrix https://link.springe[...] 1961-01-01
_[6] 서적 Automat und Mensch: über menschliche und maschinelle Intelligenz https://openlibrary.[...] Springer 1961
_[7] 학술지 Learning matrices and their applications https://ieeexplore.i[...] 1963-12-00
_[8] 학술지 Non-Holographic Associative Memory https://www.nature.c[...] 1969-06-00
_[9] 학술지 An Adaptive Associative Memory Principle https://ieeexplore.i[...] 1974-04-00
_[10] 학술지 Roy J. Glauber "Time-Dependent Statistics of the Ising Model" https://aip.scitatio[...] 2021-03-21
_[11] 서적 Pattern Recognition and Machine Learning 1971
_[12] 학술지 Associatron-A Model of Associative Memory 1972
_[13] 학술지 Learning patterns and pattern sequences by self-organizing nets of threshold elements 1972
_[14] 학술지 The Existence of Persistent States in the Brain 1974
_[15] 학술지 Neural network models for pattern recognition and associative memory https://www.scienced[...] 1989-01-01
_[16] 학술지 Discussion: McCulloch-Pitts and related neural nets from 1943 to 1989 http://link.springer[...] 1990-01-00
_[17] 학술지 Solvable Model of a Spin-Glass https://link.aps.org[...] 1975-12-29
_[18] 학술지 Neural networks and physical systems with emergent collective computational abilities 1982
_[19] 서적 Statistical mechanics of learning Cambridge University Press 2001
_[20] 학술지 Statistical mechanics of learning from examples https://journals.aps[...] 1992-04-01
_[21] 학술지 Neural networks and physical systems with emergent collective computational abilities 1982
_[22] 서적 Information Theory, Inference and Learning Algorithms https://archive.org/[...] Cambridge University Press 2003
_[23] 학술지 Neurons with graded response have collective computational properties like those of two-state neurons 1984
_[24] 학술지 On the convergence properties of the Hopfield model https://resolver.cal[...] 1990-10-00
_[25] 학술지 On the Working Principle of the Hopfield Neural Networks and its Equivalence to the GADIA in Optimization https://ieeexplore.i[...] 2020-09-00
_[26] 학술지 Shadow-Cuts Minimization/Maximization and Complex Hopfield Neural Networks 2021-03-00
_[27] 학술지 Neural computation of decisions in optimization problems 1985
_[28] 학술지 On the power of neural networks for solving hard problems https://linkinghub.e[...] 1990-06-01
_[29] 참고자료
_[30] 서적 Artificial Neural Networks – ICANN'97 Springer 1997
_[31] 학술지 The basins of attraction of a new Hopfield learning rule 1999
_[32] 참고자료
_[33] 학술지 On the number of spurious memories in the Hopfield model (neural network) https://ieeexplore.i[...] 1990
_[34] 학술지 Finite memory loading in hairy neurons http://ntur.lib.ntu.[...] 2006
_[35] 학술지 Error Tolerant Associative Memory 1999
_[36] 논문 Expanding basins of attraction of the associative memory https://ntu.primo.ex[...] 1997-06-01
_[37] 서적 COGNITIVE 2014 : The 6th International Conference on Advanced Cognitive Technologies and Applications 2014-01-01
_[38] 서적 Modeling Brain Function: The World of Attractor Neural Networks https://books.google[...] Cambridge University Press 1992-01-01
_[39] 서적 Cerebral Cortex: Principles of Operation https://books.google[...] Oxford University Press
_[40] 학술지 Capacities of multiconnected memory models https://doi.org/10.1[...] 1988-01-01
_[41] 학술지 Simplicial Hopfield networks https://openreview.n[...] 2023-01-01
_[42] 학술지 Dense Associative Memory for Pattern Recognition 2016-01-01
_[43] 학술지 Hopfield Networks is All You Need 2021-01-01
_[44] 학술지 On a model of associative memory with huge storage capacity. https://link.springe[...] 2017-01-01
_[45] 학술지 Large associative memory problem in neurobiology and machine learning 2021-01-01
_[46] arXiv Hierarchical Associative Memory 2021-01-01
_[47] 학술지 Neural network and physical systems with emergent collective computational abilities http://www.pnas.org/[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

홉필드 네트워크
지도 정보
기본 정보
유형	인공 신경망
고안자	존 홉필드
발표 연도	1982년
구조	재귀적
작동 방식	에너지 최소화
특징	연상 기억 능력 패턴 완성 능력 수렴성 보장
네트워크 구조
뉴런 연결	완전 연결
가중치	대칭
활성화 함수	임계치 함수
뉴런 상태	이진 또는 양극
학습 과정
학습 규칙	헵 규칙
학습 목적	에너지 함수 최소화
저장 용량	제한적
활용 분야
응용	패턴 인식 연상 기억 최적화 문제 조합 최적화
장단점
장점	단순한 구조 구현 용이 병렬 처리 가능
단점	제한된 저장 용량 국소 최적화 문제 초기값에 민감
로마자 표기
로마자 표기	Hopfield network