시간차 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 수식
- 2.1. 수식 유도
- 2.2. 표 형식 TD(0) 방법
3. 알고리즘
4. TD-Lambda
5. 신경과학적 관점
참조

1. 개요

시간차 학습(Temporal Difference Learning, TD)은 강화 학습에서 상태 가치 함수를 추정하는 데 사용되는 알고리즘이다. TD 알고리즘은 미래 보상의 감가합을 예측하는 방식으로 작동하며, 현재 예측과 다음 예측의 차이를 통해 학습한다. TD-람다(TD-λ)는 TD 알고리즘의 확장으로, 자취 감쇠 매개변수를 사용하여 보상으로부터 더 먼 상태와 행동에 가중치를 부여한다. TD 알고리즘은 신경과학 분야에서 도파민 뉴런의 발화율과 유사한 특성을 보여 주목받았으며, 행동 연구, 질병 연구 등 다양한 분야에 활용된다.

더 읽어볼만한 페이지

강화 학습 - 심층 강화 학습
심층 강화 학습은 심층 신경망을 활용하여 정책이나 가치 함수를 표현하는 강화 학습 방법으로, 딥 러닝 혁명 이후 정책, 가치, Q 함수 학습에 대한 관심이 높아져 아타리 게임 성공과 알파고의 바둑 승리 등을 통해 발전했으며, 로봇 공학, 자율 주행 등 다양한 분야에 적용되고 있다.
강화 학습 - 인간 피드백을 통한 강화 학습
인간 피드백을 통한 강화 학습(RLHF)은 인간의 피드백을 활용하여 강화 학습 에이전트의 정책을 최적화하는 기술로, 자연어 처리 분야와 비디오 게임 봇 개발 등에 응용되며 인간 선호도를 반영하지만 피드백 품질에 따라 성능이 좌우될 수 있다.
기계 학습 알고리즘 - 강화 학습
강화 학습은 에이전트가 환경과의 상호작용을 통해 누적 보상을 최대화하는 최적의 정책을 학습하는 기계 학습 분야이며, 몬테카를로 방법, 시간차 학습, Q-러닝 등의 핵심 알고리즘과 탐험과 활용의 균형, 정책 경사법 등의 다양한 연구 주제를 포함한다.
기계 학습 알고리즘 - 기댓값 최대화 알고리즘
계산신경과학 - 인공 신경망
계산신경과학 - 인공 일반 지능
인공 일반 지능(AGI)은 추론, 지식 표현, 학습 등의 능력을 갖춘 인공지능 시스템을 의미하며, 기아와 빈곤 해결 등의 이점을 제공하지만 통제력 상실과 같은 위험도 존재한다.

시간차 학습
개요
유형	강화 학습
분야	기계 학습
상세 정보
설명	시간차를 이용한 예측 학습 방법

2. 수식

시간 ''t''에 얻는 보상을 $r_t$ , 미래에 주어질 모든 보상의 감가합(減價合, discounted sum)을 $\bar{V_t}$ 라고 할 때, 감가인자 $\gamma$ 를 사용하여 $\bar{V_t}$ 를 계산한다. 이때 감가인자( $\gamma$ )를 곱하여 계산하는데, 이를 통해 나중에 얻어지는 보상은 현재의 보상에 비해 덜 중요하게 된다.

2. 1. 수식 유도

r_t

를 시간

t

에 얻는 보상이라고 하자.

\bar{V_t}

를 미래에 주어질 모든 보상의 감가합(減價合, discounted sum)과 같은 올바른 예측이라고 하자. 감가는 감가인자

\gamma

의 승수를 곱함으로써 이루어지며, 이를 통해 나중에 얻어지는 보상은 현재의 보상에 비해 덜 중요해진다.

:

\bar{V_t} = \sum_{i=0}^{\infty} \gamma^i r_{t+i}

이때,

0\le\gamma<1

이다. 첨자

i

를 1부터 시작하도록 식을 변형하면,

:

\bar{V_t}=r_t + \sum_{i=1}^\infty \gamma^i r_{t+i}

을 얻는다. 다시 변형하면,

:

\bar{V_t}=r_t + \sum_{i=0}^\infty \gamma^{i+1}r_{t+i+1} = r_t + \gamma \sum_{i=0}^\infty \gamma^{i}r_{t+i+1} = r_t + \gamma \bar{V}_{t+1}

을 얻는다. 따라서, 보상

r_t

는 올바른 다음 예측과 현재의 예측의 차이이다.

:

r_t = \bar{V_t} - \gamma \bar{V}_{t+1}

2. 2. 표 형식 TD(0) 방법

표 형식 TD(0)은 가장 간단한 TD 방법 중 하나로, 확률적 근사 방법의 특수한 경우이다. 이 방법은 정책

\pi

하에서 유한 상태 마르코프 결정 과정(MDP)의 상태 가치 함수

V^\pi

를 추정한다.

V^\pi

는 다음과 같이 정의된다.^[7]

:

V^\pi(s) = E_{a \sim \pi}\left\{\sum_{t=0}^\infty \gamma^tR_{t+1}\Bigg| S_0=s\right\}.

(편의상 표기법에서 동작은 생략한다.)

V^\pi

는 해밀턴-자코비-벨만 방정식을 만족한다.

:

V^\pi(s)=E_{\pi}\{R_1 + \gamma V^\pi(S_1)|S_0=s\},

따라서

R_1 + \gamma V^\pi(S_1)

는

V^\pi(s)

에 대한 편향되지 않은 추정치이다.

이를 바탕으로

V^\pi

를 추정하기 위한 알고리즘은 다음과 같다.

1. MDP의 각 상태에 대한 가치 함수

V(s)

를 임의로 초기화한다.

2. 양의 학습률

\alpha

를 설정한다.

3. 정책

\pi

를 반복적으로 평가하고 보상

r

을 얻은 후, 다음 규칙을 사용하여 현재 상태의 가치 함수를 업데이트한다.^[7]

:

V(S_t) \leftarrow (1 - \alpha) V(S_t) + \alpha (R_{t+1} + \gamma V(S_{t+1}))

여기서

S_t

와

S_{t+1}

은 각각 현재 상태와 다음 상태이다.

TD 목표: $R_{t+1} + \gamma V(S_{t+1})$
TD 오차: $R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$

상태

S_t

에서 에이전트가 행동

A_t

를 선택하고 보상

R_{t+1}

을 얻어 상태가

S_{t+1}

로 전이되면, 상태 가치 함수

V(S_t)

는 다음 식으로 갱신된다.

:

V(S_t) \leftarrow (1 - \alpha) V(S_t) + \alpha\left[R_{t+1} + \gamma V(S_{t+1})\right]

$\alpha$ : 학습률 (0 < $\alpha$ < 1)
$\gamma$ : 할인율 (0 < $\gamma$ < 1)

행동

A_t

는 상태 가치 함수를 사용하여 선택한다.

갱신식은 다음과 같이 쓸 수도 있다.

:

V(S_t) \leftarrow V(S_t) + \alpha\left[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\right]

3. 알고리즘

상태 S_t^영어에서 에이전트가 행동 A_t^영어를 선택하고 보상 R_{t+1^영어}을 얻어 상태가 S_{t+1^영어}로 전이될 때, 상태 가치 함수 V(S_t)^영어는 다음과 같이 갱신된다.^[7]

:

여기서 α^영어는 학습률이며, 0 < α^영어 < 1이다. γ^영어는 할인율이며, 0 < γ^영어 < 1인 상수이다.

갱신식은 다음과 같이 표현할 수도 있다.

:

여기서 를 TD 오차(TD error)라고 부른다.

4. TD-Lambda

리처드 S. 서튼이 아서 사무엘의 시간차 학습에 대한 초기 연구를 바탕으로 발명한 학습 알고리즘이다. 이 알고리즘은 제럴드 테사우로가 TD-Gammon을 개발하는 데 사용되어 인간 전문가 수준으로 백개먼 게임을 할 수 있게 되었다.

람다( $\lambda$ ) 매개변수는 자취 감쇠 매개변수를 의미하며, $0 \leqslant \lambda \leqslant 1$ 이다. 값이 높을수록 자취가 오래 지속된다. 즉, $\lambda$ 값이 높을수록 보상으로부터 더 먼 상태와 행동에 더 많은 공로를 돌릴 수 있으며, $\lambda = 1$ 은 몬테카를로 강화 학습 알고리즘과 병렬 학습을 생성한다.

5. 신경과학적 관점

TD 알고리즘은 신경과학 분야에서도 주목을 받았다. 연구자들은 복측피개영역(VTA)과 흑색질(SNc)의 도파민 뉴런의 발화율이 알고리즘의 오차 함수를 모방하는 것처럼 보인다는 것을 발견했다.^[2]^[3]^[4]^[5]^[6] 오차 함수는 주어진 상태 또는 시간 단계에서 예상되는 보상과 실제로 받은 보상의 차이를 보고한다. 오차 함수가 클수록 예상 보상과 실제 보상의 차이가 커진다. 이것이 미래의 보상을 정확하게 반영하는 자극과 결합되면, 오차는 자극을 미래의 보상 시스템과 연결하는 데 사용될 수 있다.

도파민 세포는 유사한 방식으로 행동하는 것으로 보인다. 한 실험에서 원숭이에게 자극과 주스 보상을 연관시키도록 훈련시키는 동안 도파민 세포의 측정이 이루어졌다.^[8] 처음에는 원숭이가 주스를 받았을 때 도파민 세포가 발화율을 증가시켜 예상 보상과 실제 보상의 차이를 나타냈다. 시간이 지남에 따라 이러한 발화 증가가 보상에 대한 가장 초기의 신뢰할 수 있는 자극으로 다시 전파되었다. 원숭이가 완전히 훈련되면 예측된 보상이 제시될 때 발화율이 증가하지 않았다. 결과적으로, 예상된 보상이 생성되지 않았을 때 도파민 세포의 발화율은 정상 활성보다 감소했다. 이것은 TD에서 강화 학습에 오차 함수가 사용되는 방식과 매우 유사하다.

모델과 잠재적인 신경학적 기능 간의 관계는 TD를 사용하여 행동 연구의 많은 측면을 설명하려는 연구를 낳았다.^[9]^[10] 또한 조현병과 같은 상태 또는 도파민의 약리학적 조작이 학습에 미치는 영향에 대한 연구에도 사용되었다.^[11]

참조

_[1] 논문 Learning to predict by the methods of temporal differences 1988-08-01
_[2] 논문 A neural substrate of prediction and reward
_[3] 논문 A framework for mesencephalic dopamine systems based on predictive Hebbian learning http://papers.cnl.sa[...] 1996-03-01
_[4] 논문 Using aperiodic reinforcement for directed self-organization http://www.gatsby.uc[...] 1993
_[5] 논문 The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms 1994
_[6] 서적 Proceedings of the eighth annual conference on Computational learning theory - COLT '95 1995
_[7] 문서 Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards
_[8] 논문 Predictive reward signal of dopamine neurons
_[9] 논문 Motivated reinforcement learning http://books.nips.cc[...] MIT Press
_[10] 논문 Altered behavioral and neural responsiveness to counterfactual gains in the elderly 2016
_[11] 논문 Dopamine, prediction error, and associative learning: a model-based account
_[12] 서적 Reinforcement Learning: An Introduction http://www.incomplet[...] MIT Press
_[13] 논문 Learning to predict by the methods of temporal differences https://doi.org/10.1[...] 1988-08-01
_[14] 서적 Reinforcement Learning, second edition: An Introduction http://incompleteide[...] Bradford Books
_[15] 서적 Reinforcement Learning http://www.cs.ualber[...] MIT Press 2009-09-04
_[16] 논문 A neural substrate of prediction and reward
_[17] 논문 Learning to predict by the methods of temporal differences

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com