심층 강화 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

심층 강화 학습은 1980년대부터 시작되어 신경망을 활용하여 강화 학습의 성능을 향상시키는 연구 분야이다. 초기에는 TD-Gammon과 같은 백개먼 게임 프로그램 개발에 성공적으로 적용되었으며, 서튼과 바토의 교과서 출간으로 학문적 기반이 다져졌다. 2012년 딥 러닝 혁명 이후 심층 신경망을 활용한 심층 강화 학습 연구가 활발히 진행되었으며, 딥마인드의 아타리 게임, 알파고, 알파제로, 뮤제로, 플루리부스, 오픈AI 파이브 등 다양한 분야에서 괄목할 만한 성과를 거두었다. 모델 기반 및 모델 자유 방식의 핵심 알고리즘을 바탕으로, 탐험, 오프 정책 학습, 역 강화 학습, 목표 조건 학습, 다중 에이전트 학습, 일반화 등의 주요 연구 분야가 있으며, 게임, 로봇 공학, 자율 주행 등 다양한 분야에 응용되고 있다.

더 읽어볼만한 페이지

강화 학습 - 시간차 학습
시간차 학습은 미래 보상 예측과 현재 가치 추정치 업데이트를 통해 학습하는 강화 학습 방법으로, 체커 프로그램 개발과 TD-Lambda 알고리즘, TD-Gammon 개발을 거쳐 인공지능, 로보틱스, 추천 시스템, 금융 공학 등 다양한 분야에 응용된다.
강화 학습 - 인간 피드백을 통한 강화 학습
인간 피드백을 통한 강화 학습(RLHF)은 인간의 피드백을 활용하여 강화 학습 에이전트의 정책을 최적화하는 기술로, 자연어 처리 분야와 비디오 게임 봇 개발 등에 응용되며 인간 선호도를 반영하지만 피드백 품질에 따라 성능이 좌우될 수 있다.
기계 학습 알고리즘 - 강화 학습
강화 학습은 에이전트가 환경과의 상호작용을 통해 누적 보상을 최대화하는 최적의 정책을 학습하는 기계 학습 분야이며, 몬테카를로 방법, 시간차 학습, Q-러닝 등의 핵심 알고리즘과 탐험과 활용의 균형, 정책 경사법 등의 다양한 연구 주제를 포함한다.
기계 학습 알고리즘 - 기댓값 최대화 알고리즘
딥 러닝 - 질의 응답
질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다.
딥 러닝 - 딥페이크
딥페이크는 인공지능 기술을 활용하여 영상이나 이미지를 조작, 합성하여 실제와 구별하기 어렵게 만드는 기술이며, 가짜 뉴스, 명예훼손, 신원 위장 등 다양한 문제점을 야기한다.

심층 강화 학습

2. 역사

딥 러닝은 인공 신경망을 통해 입력을 출력으로 변환하는 신경망을 활용하는 기계 학습의 한 형태이다. 딥 러닝은 지도 학습을 통해 복잡한 데이터를 처리하고, 컴퓨터 비전 및 자연어 처리 등 여러 분야에서 발전을 이루었다. 지난 10년 동안 심층 강화 학습(Deep RL)은 바둑, 아타리 게임, 도타 2와 같은 게임과 로봇 공학 등 다양한 문제에서 놀라운 결과를 달성했다.^[2]

많은 실제 의사 결정 문제에서 마르코프 결정 과정(MDP)의 상태는 고차원적이며 기존 강화 학습 (RL) 알고리즘으로는 해결하기 어렵다. 심층 강화 학습 알고리즘은 딥 러닝을 통합하여 이러한 MDP를 해결하고, 정책 또는 기타 학습된 함수를 신경망으로 표현하며, 특화된 알고리즘을 개발한다.

심층 강화 학습은 게임 외에도 로봇 공학, 데이터 센터 에너지 소비 감소, 자율 주행, 고고도 기구 탐색 등 다양한 분야에 적용되고 있다.^[20],^[21],^[22],^[23],^[24],^[34]

2. 1. 초기 연구 (1980년대 ~ 2010년대 초)

1980년대 중반부터 신경망에 대한 관심이 높아지면서, 정책이나 가치 함수를 표현하기 위해 신경망이 강화 학습에 사용되는 심층 강화 학습에 대한 관심도 증가했다.^[7] 신경망을 사용한 강화 학습의 첫 번째 성공적인 응용 프로그램 중 하나는 1992년에 개발된 백개먼 게임 프로그램인 TD-Gammon이었다.^[8] 이 프로그램은 보드의 특정 위치에 특정 색상의 말이 몇 개 있는지에 대한 4개의 입력을 포함하여 총 198개의 입력 신호를 사용했다. TD-Gammon은 사전 지식이 전혀 없이 자기 학습과 TD(

\lambda

)을 통해 중간 수준의 게임 실력을 갖추게 되었다.

서튼과 바토의 강화 학습 교과서,^[9] 베르트세카스와 치치클리스의 신경 역학 프로그래밍 교과서,^[10] 그리고 다른 연구자들의 저술^[11]은 이 분야의 지식과 관심을 증진시켰다.

시바타 가쓰나리의 연구진은 이 프레임워크 내에서 이미지 인식, 색상 항상성, 센서 움직임(능동적 인식), 손-눈 조정 및 손 뻗기 운동, 뇌 활동 설명, 지식 이전, 기억,^[15] 선택적 주의, 예측 및 탐험 등 다양한 기능들이 나타난다는 것을 보여주었다.^[12]^[13]^[14]^[16]

2. 2. 딥 러닝 혁명과 심층 강화 학습의 발전 (2012년 ~ 현재)

2012년경부터 딥 러닝 혁명은 다양한 분야에서 심층 신경망을 함수 근사자로 사용하는 데 대한 관심을 크게 높였다. 이는 심층 신경망을 사용하여 기존 강화 학습 알고리즘에 존재하는 정책, 가치 및/또는 Q 함수를 학습시키려는 연구자들의 관심을 새롭게 불러일으켰다.^[17]

2013년 딥마인드는 아타리 비디오 게임을 플레이하기 위해 심층 강화 학습을 사용하여 인상적인 학습 결과를 보여주었다.^[17]^[18] 컴퓨터 플레이어는 Q-러닝의 심층 버전인 심층 Q 네트워크(DQN)를 사용하여 훈련된 신경망이었으며, 게임 점수를 보상으로 사용했다. 딥마인드는 심층 합성곱 신경망을 사용하여 4개의 프레임 RGB 픽셀(84x84)을 입력으로 처리했다. 모든 49개의 게임은 동일한 네트워크 아키텍처를 사용하고 최소한의 사전 지식으로 학습되었으며, 거의 모든 게임에서 경쟁 방법론보다 뛰어난 성과를 보였고, 전문 인간 게임 테스터와 동등하거나 더 뛰어난 수준으로 수행했다.^[18]

심층 강화 학습은 2015년에 알파고가 바둑에서 심층 강화 학습으로 훈련된 컴퓨터 프로그램이 19×19 크기의 바둑판에서 핸디캡 없이 인간 프로 바둑 기사를 이긴 최초의 컴퓨터 바둑 프로그램이 되면서 또 다른 이정표를 달성했다.

2017년 후속 프로젝트인 알파제로는 바둑에서의 성능을 향상시켰으며, 동시에 동일한 알고리즘을 사용하여 해당 게임에 대한 기존 컴퓨터 프로그램과 경쟁하거나 우월한 수준으로 체스와 쇼기를 플레이하는 법을 배울 수 있음을 입증했고, 2019년 뮤제로를 통해 다시 개선되었다.^[33] 2019년에는 카네기 멜론 대학교 연구자들이 무제한 텍사스 홀덤의 다중 플레이어 게임에서 전문가를 처음으로 이긴 포커 프로그램인 플루리부스를 개발하여 또 다른 이정표를 달성하였다. 다섯 명이 참여하는 ''도타 2''를 플레이하기 위한 프로그램인 오픈AI 파이브는 2019년 시연 경기에서 이전 세계 챔피언을 이겼다.

3. 핵심 알고리즘

심층 강화 학습 알고리즘은 환경 역학의 순방향 모델을 학습하는지 여부에 따라 모델 기반 방식과 모델 자유 방식으로 나눌 수 있다.

'''모델 기반''' 심층 강화 학습은 환경 역학의 순방향 모델을 추정하여 행동을 얻는 방식이다. '''모델 자유''' 심층 강화 학습은 순방향 역학을 명시적으로 모델링하지 않고 정책 $\pi(a|s)$ 를 학습하는 방식이다.

3. 1. 모델 기반 심층 강화 학습

모델 기반 심층 강화 학습 알고리즘에서는 환경 역학의 순방향 모델을 추정하며, 일반적으로 신경망을 사용한 지도 학습을 통해 수행된다. 그런 다음 학습된 모델을 사용하여 모델 예측 제어를 수행하여 행동을 얻는다. 실제 환경 역학은 일반적으로 학습된 역학에서 벗어나므로, 에이전트는 환경에서 행동을 수행할 때 자주 재계획을 세운다.^[25] 선택된 행동은 교차 엔트로피 방법과 같은 몬테카를로 방법을 사용하거나, 모델 학습과 모델 자유 방법을 조합하여 최적화될 수 있다.

3. 2. 모델 자유 심층 강화 학습

강화 학습에서 모델 자유 심층 강화 학습 알고리즘은 환경 모델을 명시적으로 학습하지 않고 정책

\pi(a|s)

를 학습한다. 정책은 정책 기울기^[25]를 직접 추정하여 반환값을 최대화하도록 최적화할 수 있지만, 분산이 높아 심층 강화 학습에서 함수 근사를 사용하는 데 실용적이지 않다. 이후 더 안정적인 학습을 위한 알고리즘이 개발되어 널리 적용되었다.^[27]^[26] 모델 자유 심층 강화 학습 알고리즘의 또 다른 부류는 동적 프로그래밍에 의존하며, 이는 시간차 학습 및 Q-러닝에서 영감을 받았다. 이산 행동 공간에서 이러한 알고리즘은 일반적으로 상태

s

에서 행동

a

를 취할 때의 미래 반환값을 추정하는 신경망 Q-함수

Q(s, a)

를 학습한다.^[17] 연속 공간에서 이러한 알고리즘은 종종 가치 추정과 정책을 모두 학습한다.^[28]^[29]^[30]

4. 주요 연구 분야

심층 강화 학습은 활발한 연구 분야이며, 여러 연구 방향이 존재한다.

탐험 (Exploration): 강화 학습 에이전트는 탐험과 이용의 균형을 맞춰야 한다. 즉, 이미 높은 보상을 얻는 것으로 알려진 행동을 계속할지, 아니면 더 높은 보상을 찾기 위해 다른 행동을 탐색할지를 결정해야 한다.
오프 정책 강화 학습 (Off-policy Reinforcement Learning): 다른 정책에 의해 생성된 데이터를 사용하여 학습할 수 있는 알고리즘이다. Q-러닝과 같은 가치 함수 기반 방법이 오프 정책 학습에 더 적합하며 샘플 효율성이 더 높다.^[1]
역 강화 학습 (Inverse Reinforcement Learning): 에이전트의 행동을 보고 에이전트의 보상 함수를 추론하는 것을 의미한다.
목표 조건 강화 학습 (Goal-conditioned Reinforcement Learning): 에이전트에게 원하는 목표를 명시적으로 제공하여 학습시키는 방법이다.
다중 에이전트 강화 학습 (Multi-agent Reinforcement Learning): 여러 에이전트가 함께 학습하고 상호 적응하는 환경에서 발생하는 문제들을 연구한다.
일반화 (Generalization): 심층 학습 도구를 강화 학습에 사용하는 것은 일반화, 즉 이전에 보지 못한 입력에 대해 올바르게 작동하는 능력을 약속한다.

4. 1. 탐험 (Exploration)

강화 학습(RL) 에이전트는 탐험과 이용의 균형을 맞춰야 한다. 즉, 이미 높은 보상을 얻는 것으로 알려진 행동을 계속할지, 아니면 더 높은 보상을 찾기 위해 다른 행동을 탐색할지를 결정해야 한다. RL 에이전트는 일반적으로 이산 행동 공간에서는 볼츠만 분포, 연속 행동 공간에서는 정규 분포와 같은 확률적 정책을 사용하여 기본적인 탐험 행동을 유도한다. 참신함 기반 또는 호기심 기반 탐험은 에이전트가 최상의 솔루션을 찾기 위해 알려지지 않은 결과를 탐험하도록 동기를 부여한다. 이는 "탐험을 장려하는 항을 추가하여 손실 함수(또는 심지어 네트워크 아키텍처)를 수정"함으로써 수행된다.^[3] 에이전트는 성공적인 궤적의 시연을 활용하거나, 보상 형성을 통해 탐험을 돕기도 한다. 보상 형성은 에이전트에게 완료하려는 작업에 맞게 조정된 중간 보상을 제공하는 것이다.^[4]

4. 2. 오프 정책 강화 학습 (Off-policy Reinforcement Learning)

오프 정책 강화 학습은 다른 정책에 의해 생성된 데이터를 사용하여 학습할 수 있는 알고리즘이다. 일반적으로, Q-러닝과 같은 가치 함수 기반 방법은 오프 정책 학습에 더 적합하며 샘플 효율성이 더 높다.^[1] 즉, 학습을 위해 데이터를 재사용하기 때문에 작업을 학습하는 데 필요한 데이터의 양이 줄어든다.^[1] 극단적인 경우, 오프라인(또는 "배치") 강화 학습(RL)은 환경과의 추가적인 상호 작용 없이 고정된 데이터 세트로부터 정책을 학습하는 것을 고려한다.^[1]

4. 3. 역 강화 학습 (Inverse Reinforcement Learning)

역강화 학습(Inverse RL)은 에이전트의 행동을 보고 에이전트의 보상 함수를 추론하는 것을 의미한다. 역강화 학습은 시연(또는 견습 학습)으로부터 학습하는 데 사용될 수 있는데, 시연자의 보상을 추론한 다음 강화 학습(RL)으로 반환값을 최대화하는 정책을 최적화하는 방식이다.^[35] 딥 러닝 접근 방식은 다양한 형태의 모방 학습 및 역강화 학습에 사용되어 왔다.^[35]

4. 4. 목표 조건 강화 학습 (Goal-conditioned Reinforcement Learning)

목표 조건 강화 학습(Goal-conditioned Reinforcement Learning)은 에이전트에게 원하는 목표를 명시적으로 제공하여 학습시키는 방법이다. 이때 사용되는 정책은 컨텍스트 또는 유니버설 정책

\pi(a|s, g)

라고도 불리며, 추가적인 목표

g

를 입력으로 받는다.^[32] 회고 경험 재생(Hindsight Experience Replay, HER)은 목표 조건 강화 학습의 한 방법으로, 실패한 경험을 활용한다.^[31] HER은 실패한 시도에서 의도한 목표를 달성하지 못했더라도, 회고를 통해 다른 결과를 달성하는 방법에 대한 교훈을 얻을 수 있게 한다.

4. 5. 다중 에이전트 강화 학습 (Multi-agent Reinforcement Learning)

다중 에이전트 강화 학습은 여러 에이전트가 함께 학습하고 상호 적응하는 환경에서 발생하는 문제들을 연구한다. 이러한 에이전트는 많은 게임에서처럼 경쟁적이거나, 실제 다중 에이전트 시스템에서처럼 협력적일 수 있다.^[1]

4. 6. 일반화 (Generalization)

심층 학습 도구를 강화 학습에 사용하는 것은 일반화, 즉 이전에 보지 못한 입력에 대해 올바르게 작동하는 능력을 약속한다. 예를 들어, 이미지 인식 훈련을 받은 신경망은 해당 특정 이미지나 특정 새를 본 적이 없더라도 사진에 새가 포함되어 있음을 인식할 수 있다. 심층 강화 학습은 원시 데이터(예: 픽셀)를 입력으로 사용할 수 있으므로 환경을 미리 정의할 필요가 줄어들어 모델을 여러 애플리케이션으로 일반화할 수 있다. 이 추상화 계층을 통해 심층 강화 학습 알고리즘을 일반적인 방식으로 설계할 수 있으며, 동일한 모델을 다양한 작업에 사용할 수 있다. 심층 강화 학습 정책으로 훈련된 정책의 일반화 능력을 높이는 한 가지 방법은 표상 학습을 통합하는 것이다.

5. 응용 분야

심층 강화 학습은 게임, 로봇 공학, 자율 주행 등 다양한 분야에 적용되고 있으며, 그 활용 범위가 점차 확대되고 있다.

게임: 딥마인드는 아타리 비디오 게임을 플레이하는 데 심층 강화 학습을 적용하여 인상적인 성과를 보였다.^[17]^[18] 알파고는 바둑에서, 알파제로는 체스와 쇼기에서 인간을 능가하는 성능을 보였다.^[33] 플루리부스는 텍사스 홀덤에서, 오픈AI 파이브는 ''도타 2''에서 인간 프로 선수를 이겼다.
로봇 공학: 로봇 제어, 작업 수행, 물체 조작 등 다양한 기술에 적용되고 있다. 예를 들어, 로봇이 간단한 가정 작업을 수행하거나^[20] 로봇 손으로 큐브를 풀도록 하는 데 사용되었다.^[21]^[22]
자율 주행: 차량 제어, 경로 계획, 의사 결정 등에 활용된다.^[24]

이 외에도 데이터 센터의 에너지 소비를 줄이는 지속 가능한 응용 프로그램을 찾는 데에도 활용되었으며,^[23] 룬은 고고도 기구를 자율적으로 탐색하기 위해 심층 강화 학습을 연구했다.^[34]

5. 1. 게임

심층 강화 학습은 다양한 게임에서 인간 수준 또는 그 이상의 성능을 달성했다.

2013년경 딥마인드는 아타리 비디오 게임을 플레이하기 위해 심층 강화 학습을 사용해 인상적인 학습 결과를 보여주었다.^[17]^[18] 컴퓨터 플레이어는 Q-러닝의 심층 버전인 심층 Q 네트워크(DQN)를 사용해 훈련된 신경망이었으며, 게임 점수를 보상으로 사용했다. 이들은 심층 합성곱 신경망을 사용해 4개의 프레임 RGB 픽셀(84x84)을 입력으로 처리했다. 모든 49개의 게임은 동일한 네트워크 아키텍처를 사용하고 최소한의 사전 지식으로 학습되었으며, 거의 모든 게임에서 경쟁 방법론보다 뛰어난 성과를 보였고, 전문 인간 게임 테스터와 동등하거나 더 뛰어난 수준으로 수행했다.^[18]

2015년에는 알파고가 바둑을 하기 위해 심층 강화 학습으로 훈련된 컴퓨터 프로그램이 19×19 크기의 바둑판에서 핸디캡 없이 인간 프로 바둑 기사를 이긴 최초의 컴퓨터 바둑 프로그램이 되면서 또 다른 이정표를 달성했다.

2017년의 후속 프로젝트인 알파제로는 바둑에서의 성능을 향상시켰으며, 동시에 동일한 알고리즘을 사용하여 해당 게임에 대한 기존 컴퓨터 프로그램과 경쟁하거나 우월한 수준으로 체스와 쇼기를 플레이하는 법을 배울 수 있음을 입증했고, 2019년 뮤제로를 통해 다시 개선되었다.^[33] 2019년에는 카네기 멜론 대학교 연구자들이 무제한 텍사스 홀덤의 다중 플레이어 게임에서 전문가를 처음으로 이긴 포커 프로그램인 플루리부스를 개발했다. 다섯 명이 참여하는 ''도타 2''를 플레이하기 위한 프로그램인 오픈AI 파이브는 2019년 시연 경기에서 이전 세계 챔피언을 이겼다.

5. 2. 로봇 공학

심층 강화 학습은 로봇 공학 분야에서 로봇 제어, 작업 수행, 물체 조작 등 다양한 기술에 적용되고 있다. 예를 들어, 로봇이 간단한 가정 작업을 수행하거나^[20] 로봇 손으로 큐브를 풀도록 하는 데 사용되었다.^[21]^[22]

5. 3. 자율 주행

심층 강화 학습은 자율 주행 시스템 개발에 활용되는데, 차량 제어, 경로 계획, 의사 결정 등이 그 예시이다.^[24] 자율 주행을 위한 심층 강화 학습은 학계와 업계에서 활발히 연구되는 분야이다.^[24]

5. 4. 기타 분야

심층 강화 학습은 게임 외에도 여러 분야에 적용되었다. 로봇 공학에서는 로봇이 간단한 가정 작업을 수행하고^[20] 로봇 손으로 큐브를 풀도록^[21]^[22] 하는데 사용되었다. 또한 데이터 센터의 에너지 소비를 줄이는 지속 가능한 응용 프로그램을 찾는 데에도 활용되었다.^[23] 자율 주행을 위한 심층 강화 학습은 학계와 업계에서 활발히 연구되는 분야이다.^[24] 룬은 고고도 기구를 자율적으로 탐색하기 위해 심층 강화 학습을 연구했다.^[34]

참조

_[1] 논문 Deep reinforcement learning in computer vision: a comprehensive survey https://doi.org/10.1[...] 2022-04-01
_[2] 웹사이트 Foundations of Deep Reinforcement Learning: Theory and Practice in Python https://openlibrary.[...] 2023-07-01
_[3] 서적 ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2019-10-23
_[4] 간행물 Reward Shaping https://doi.org/10.1[...] Springer US 2020-11-16
_[5] arXiv Assessing Generalization in Deep Reinforcement Learning 2019-03-15
_[6] 논문 An Introduction to Deep Reinforcement Learning 2018
_[7] speech Artificial Intelligence and the Future. https://www.youtube.[...] 2016-03-11
_[8] 논문 Temporal Difference Learning and TD-Gammon 1995-03
_[9] 서적 Reinforcement Learning: An Introduction Athena Scientific 1996-09
_[10] 서적 Neuro-Dynamic Programming http://athenasc.com/[...] Athena Scientific 1996-09
_[11] 서적 Neural Networks for Control 1990
_[12] conference Reinforcement Learning When Visual Sensory Signals are Directly Given as Inputs http://shws.cc.oita-[...] 2020-12-01
_[13] conference Acquisition of Box Pushing by Direct-Vision-Based Reinforcement Learning http://shws.cc.oita-[...] 2020-12-01
_[14] arXiv Functions that Emerge through End-to-End Reinforcement Learning 2017-03-07
_[15] conference Contextual Behavior and Internal Representations Acquired by Reinforcement Learning with a Recurrent Neural Network in a Continuous State and Action Space Task http://shws.cc.oita-[...] 2020-12-14
_[16] conference Learning of Action Generation from Raw Camera Images in a Real-World-like Environment by Simple Coupling of Reinforcement Learning and a Neural Network http://shws.cc.oita-[...] 2020-12-01
_[17] conference Playing Atari with Deep Reinforcement Learning https://www.cs.toron[...] 2013-12
_[18] 논문 Human-level control through deep reinforcement learning
_[19] 논문 Mastering the game of Go with deep neural networks and tree search 2016-01-28
_[20] 논문 End-to-end training of deep visuomotor policies https://www.jmlr.org[...] 2016-01
_[21] 웹사이트 OpenAI - Solving Rubik's Cube With A Robot Hand https://openai.com/b[...]
_[22] conference Solving Rubik's Cube with a Robot Hand 2019
_[23] 웹사이트 DeepMind AI Reduces Google Data Centre Cooling Bill by 40% https://deepmind.com[...] 2024-05-14
_[24] 웹사이트 Machine Learning for Autonomous Driving Workshop @ NeurIPS 2021 https://ml4ad.github[...] 2021-12
_[25] 논문 Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning 1992
_[26] conference Proximal Policy Optimization Algorithms 2017
_[27] conference Trust Region Policy Optimization 2015
_[28] conference Continuous control with deep reinforcement learning 2016
_[29] conference Asynchronous Methods for Deep Reinforcement Learning 2016
_[30] conference Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 2018
_[31] conference Hindsight Experience Replay 2018
_[32] conference Universal Value Function Approximators http://proceedings.m[...] 2015
_[33] 논문 Mastering Atari, Go, chess and shogi by planning with a learned model https://www.nature.c[...] 2020-12-23
_[34] 논문 Autonomous navigation of stratospheric balloons using reinforcement learning https://www.nature.c[...] 2020-12-02
_[35] arXiv Maximum Entropy Deep Inverse Reinforcement Learning 2015

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com