알파고 제로

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 아키텍처
- 2.1. 신경망 구조
3. 훈련
- 3.1. 훈련 과정
- 3.2. 비교 훈련
4. 하드웨어 비용
5. 응용 분야
6. 평가 및 반응
- 6.1. 한국 바둑계의 반응
7. 이전 버전과의 비교
8. 알파제로
- 8.1. 릴라 제로
참조

1. 개요

알파고 제로는 딥마인드가 개발한 인공지능 바둑 프로그램으로, ResNet 기반의 심층 신경망을 사용하여 바둑판의 형세를 분석하고 다음 수를 예측한다. 훈련 과정에서 인간의 기보 없이 자기 대국을 통해 학습하며, 단 며칠 만에 최고 수준의 인간을 능가하는 실력을 갖추었다. 알파고 제로는 2017년 10월 네이처에 발표되었으며, 이전 버전인 알파고 리, 알파고 마스터보다 뛰어난 성능을 보였다. 또한, 알파고 제로의 일반화된 버전인 알파제로는 바둑뿐만 아니라 체스, 쇼기에서도 인간을 초월하는 수준의 실력을 달성했다.

더 읽어볼만한 페이지

알파고 - 알파제로
알파제로는 딥마인드가 개발한 인공지능으로, 강화 학습을 통해 체스, 쇼기, 바둑 등에서 인간을 능가하는 실력을 보이며, 자기 대전을 통해 학습하고 딥 러닝을 이용한 강화 학습을 사용하여 인공지능 연구 및 뮤제로 개발에 기여했다.
알파고 - 알파고 대 이세돌
알파고 대 이세돌은 2016년 3월에 인공지능 알파고와 바둑 기사 이세돌 9단의 대결로, 알파고가 4승 1패로 승리하며 인공지능 기술 발전을 보여주는 중요한 사건이다.
2017년 바둑 - 알파제로
알파제로는 딥마인드가 개발한 인공지능으로, 강화 학습을 통해 체스, 쇼기, 바둑 등에서 인간을 능가하는 실력을 보이며, 자기 대전을 통해 학습하고 딥 러닝을 이용한 강화 학습을 사용하여 인공지능 연구 및 뮤제로 개발에 기여했다.
2017년 바둑 - 36기 KBS 바둑왕전
36기 KBS 바둑왕전은 2016년 12월부터 2018년 3월까지 진행된 대한민국의 바둑 기전으로, 박정환 9단이 김지석 9단을 꺾고 우승했으며 아마추어 예선 통과자 3명이 본선에 진출한 특이사항이 있었다.
응용 기계 학습 - 알파고
알파고는 구글 딥마인드가 개발한 인공지능 바둑 프로그램으로, 심층 신경망과 몬테카를로 트리 탐색 알고리즘을 결합하여 자가 학습을 통해 인간을 뛰어넘는 바둑 실력을 달성하며 인공지능 기술 발전과 사회적 영향에 대한 논의를 촉발했다.
응용 기계 학습 - 알파폴드
알파폴드는 딥마인드에서 개발한 단백질 구조 예측 인공지능 시스템으로, 아미노산 서열로부터 3차원 구조를 예측하며 높은 정확도로 신약 개발과 질병 연구에 기여할 가능성이 있지만, 단백질 복합체 및 무질서 단백질 영역 예측에는 한계가 있다.

알파고 제로
개요
바둑판
종류	바둑 소프트웨어
개발사	구글 딥마인드
최초 버전	2017년
개발 언어	텐서플로, C++
운영 체제	리눅스
상세 정보
이전 버전	알파고
후속 버전	알파제로, 알파스타
특징	인간의 기보 없이 스스로 학습
기술적 세부 사항
학습 방법	강화 학습
사용 알고리즘	몬테카를로 트리 탐색, 심층 신경망
신경망 구조	잔류 네트워크 (Residual Network)
하드웨어	단일 구글 TPU
성능
알파고 (AlphaGo) 와의 대결	100전 100승
학습 시간	약 3일
주요 논문
네이처 (Nature) 게재	Mastering the game of Go without human knowledge
관련 정보
개발 블로그	AlphaGo Zero: Learning from scratch
관련 기사	Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days DeepMind AlphaGo Zero learns on its own without meatbag intervention
관련 인물	데미스 하사비스, 데이비드 실버

2. 아키텍처

알파고 제로는 ResNet을 기반으로 설계되었으며, 정책망과 가치망이라는 두 개의 주요 구성 요소를 가지고 있다.^[1]

2. 1. 신경망 구조

알파고 제로의 신경망은 두 개의 헤드를 가진 ResNet이다.^[1]

신경망의 입력층은 바둑판의 17x19x19 텐서 표현을 입력으로 받는다.
8개의 채널은 지난 8단계의 시간 단계에서 현재 플레이어의 돌 위치를 나타낸다. (돌이 있으면 1, 그렇지 않으면 0. 시간 단계가 게임 시작 전이면 모든 위치에서 0)
8개의 채널은 지난 8단계의 시간 단계에서 상대 플레이어의 돌 위치를 나타낸다.
1개의 채널은 흑이 둘 차례이면 모두 1, 그렇지 않으면 0이다.
본체는 20개 또는 40개의 잔차 블록과 256개의 채널을 가진 ResNet이다.
정책 헤드와 가치 헤드, 두 개의 헤드가 있다.
정책 헤드는 $19 \times 19 + 1$ 크기의 로짓 배열을 출력하며, 이는 특정 지점에 수를 두는 로짓과 수를 패스하는 로짓을 나타낸다.
가치 헤드는 $(-1, +1)$ 범위의 숫자를 출력하며, 현재 플레이어의 예상 점수를 나타낸다. -1은 현재 플레이어의 패배를, +1은 승리를 나타낸다.

3. 훈련

알파고 제로는 인간의 기보를 전혀 사용하지 않고 오직 자기 자신과의 대국(self-play)을 통해 강화 학습을 진행했다. 처음 3일 동안 490만 번의 대국을 스스로 진행하며 규칙을 터득하고 최적의 전략을 학습했다.^[11] 이전 알파고가 최고 수준에 도달하기까지 수개월이 걸렸던 반면, 알파고 제로는 단 며칠 만에 최고 수준의 인간을 이길 수 있는 기술을 개발했다.^[12]

3. 1. 훈련 과정

알파고 제로는 64개의 GPU 워커와 19개의 CPU 파라미터 서버를 사용하여 텐서플로우로 훈련되었다.^[10] 추론에는 4개의 TPU가 사용되었다.^[10] 신경망은 처음에는 규칙 외에는 바둑에 대해 아무것도 알지 못했다.^[10] 이전 버전의 알파고와 달리, 제로는 특이한 바둑판 위치를 인식하는 데 도움이 되는 인간이 프로그래밍한 드문 경우의 수를 갖는 대신, 바둑판의 돌만 인식했다.^[10] 이 AI는 강화 학습에 참여하여, 자신의 수를 예측하고 그 수가 게임의 결과에 어떤 영향을 미치는지 알 수 있을 때까지 스스로 대국을 진행했다.^[10] 처음 3일 동안 알파고 제로는 490만 판의 경기를 스스로와 대국했다.^[11] 이전의 알파고가 같은 수준에 도달하기 위해 수개월의 훈련을 거쳐야 했던 반면, 제로는 단 며칠 만에 최고 수준의 인간을 이길 수 있는 기술을 개발한 것으로 보인다.^[12]

훈련에는 3e23 FLOPs가 소요되었으며, 이는 알파고 제로의 10배에 달한다.^[13]

비교를 위해, 연구자들은 인간의 기보를 사용하여 알파고 제로 버전을 훈련시켰는데, 이를 알파고 마스터라고 불렀으며, 더 빠르게 학습했지만 실제로 장기적으로는 성능이 더 낮다는 것을 발견했다.^[14] 딥마인드는 2017년 4월에 초기 연구 결과를 논문으로 제출하여, 2017년 10월에 ''네이처''에 게재되었다.^[1]

3. 2. 비교 훈련

알파고 제로는 텐서플로우를 사용하여 훈련되었으며, 64개의 GPU 워커와 19개의 CPU 파라미터 서버를 사용했다. 추론에는 4개의 TPU가 사용되었다.^[10] 신경망은 처음에는 규칙 외에는 바둑에 대해 아무것도 몰랐으며, 바둑판의 돌만 인식했다.^[10] 알파고 제로는 강화 학습을 통해 스스로 대국을 진행하며 수를 예측하고 결과에 미치는 영향을 학습했다.^[10]

연구자들은 비교를 위해 인간의 기보를 사용하여 알파고 제로 버전을 훈련시켰는데, 이를 알파고 마스터라고 불렀다. 알파고 마스터는 더 빠르게 학습했지만, 장기적으로는 알파고 제로보다 성능이 낮았다.^[14]

4. 하드웨어 비용

2017년, 4개의 TPU를 포함한 단일 알파고 제로 시스템의 하드웨어 비용은 약 2,500만 달러로 알려져 있다.^[15]

5. 응용 분야

하사비스에 따르면, 알파고의 알고리즘은 단백질 접힘(알파폴드 참조)이나 화학 반응의 정확한 시뮬레이션과 같이 방대한 가능성 공간을 지능적으로 탐색해야 하는 분야에 가장 유용할 것이다.^[16] 딥마인드는 2017년 10월, 단백질 접힘에 알파고 제로 기술을 적용하기 위한 작업을 이미 시작했으며, 곧 새로운 연구 결과를 발표할 것이라고 밝혔다.^[17]^[18] 알파고의 기술은 자동차 운전 학습과 같이 시뮬레이션이 어려운 분야에서는 덜 유용할 것이다.^[19]

6. 평가 및 반응

알파고 제로는 인공지능 분야에서 획기적인 발전으로 널리 평가받고 있다. 앨런 인공지능 연구소의 오렌 에치오니는 알파고 제로를 "40일 동안 4개의 TPU로 시스템을 학습시키는 능력과 그 능력이 모두 매우 인상적인 기술적 결과"라고 평가했다.^[10] 가디언지는 셰필드 대학교의 엘레니 바실라키와 카네기 멜론 대학교의 톰 미첼을 인용하여, 각각 인상적인 업적과 "뛰어난 엔지니어링 성과"라고 칭하며, 이를 "인공 지능의 주요 돌파구"라고 불렀다.^[19] 시드니 대학교의 마크 페세는 알파고 제로를 "우리를 '미지의 영역'으로 이끄는 큰 기술적 진보"라고 말했다.^[20]

뉴욕 대학교의 심리학자 게리 마커스는 알파고가 "프로그래머가 바둑과 같은 문제를 풀기 위한 기계를 만드는 방법에 대해 가지고 있는 암묵적인 지식을 포함하고 있을 수 있다"며, 알파고의 기본 아키텍처가 바둑을 두는 것 이상의 훨씬 많은 분야에서 효과적인지 확인하려면 다른 분야에서 테스트해야 한다고 경고했다. 반면, 딥마인드는 "이 접근 방식이 많은 수의 분야에 적용될 수 있다고 확신"한다.^[11]

중국의 바둑 기사 커제는 새로운 프로그램의 놀라운 업적에 대해 "순수한 자기 학습 알파고가 가장 강하다. 인간은 스스로 발전하는 알파고 앞에서 불필요해 보인다"라고 논평했다.^[22]

6. 1. 한국 바둑계의 반응

이세돌은 "이전 버전의 알파고는 완벽하지 않았고, 그것이 알파고 제로가 만들어진 이유라고 생각한다"라고 말했다. 그는 알파고 개발의 잠재력에 대해 지켜봐야 할 것이라고 말했지만, 젊은 바둑 기사들에게 영향을 미칠 것이라고 예상했다.^[21]

목진석은 대한민국 바둑 국가대표팀을 이끌면서, 바둑계가 이미 이전 버전의 알파고의 기풍을 모방하고 거기에서 새로운 아이디어를 창출해 왔으며, 알파고 제로로부터 새로운 아이디어가 나올 것이라고 기대한다고 말했다. 또한 바둑계의 일반적인 흐름이 현재 알파고의 기풍에 영향을 받고 있다고 덧붙였다. 그는 "처음에는 이해하기 어려웠고 거의 외계인과 대결하는 듯한 느낌이 들었습니다. 그러나 많은 경험을 하면서 익숙해졌습니다."라고 말했다. "이제 우리는 알파고와 인간의 능력 격차에 대해 논하는 단계를 넘어섰습니다. 이제는 컴퓨터 간의 문제입니다."라고 덧붙였다.^[21]

목진석은 이미 국가대표팀 선수들과 함께 알파고 제로의 기풍 분석을 시작했으며, "몇 경기만 봤지만, 알파고 제로가 이전 버전보다 인간과 더 유사하게 둔다는 인상을 받았습니다."라고 말했다.^[21]

7. 이전 버전과의 비교

알파고 제로는 이전 버전인 알파고 리, 알파고 마스터보다 훨씬 뛰어난 성능을 보인다. 특히, 인간의 지식 없이 자기 학습만으로 최고 수준에 도달했다는 점이 가장 큰 차이점이다.^[23]^[41]

구성 및 강점
버전	플레이 하드웨어	Elo 레이팅	대국
알파고 1.0(AlphaGo Fan)	176 GPU 분산 처리	3,144	판후이에 5:0 승리
알파고 2.0(AlphaGo Lee)	48 TPU 분산 처리	3,739	이세돌에 4:1 승리
알파고 마스터(AlphaGo Master)	4 TPU 단일 머신	4,858	프로 기사 60:0 승리; 바둑의 미래 서밋
알파고 제로 (40일)	4 TPU 단일 머신	5,185	알파고 2.0에 100:0 승리, 알파고 마스터에 89:11 승리
알파제로 (34시간)	4 TPU 단일 머신	4,430 (추정)	3일 훈련한 알파고 제로에 60:40 승리

8. 알파제로

2017년 12월 5일, 딥마인드 팀은 arXiv에 사전 출판본을 공개하여 알파제로를 소개했다. 알파제로는 일반화된 알파고 제로의 접근 방식을 사용하여 24시간 이내에 체스, 쇼기, 바둑에서 인간을 초월하는 수준의 실력을 달성했다. 각 종목에서 세계 챔피언 프로그램인 스톡피쉬, 엘모, 그리고 3일 버전의 알파고 제로를 꺾었다.^[8]

알파제로(AZ)는 알파고 제로(AGZ) 알고리즘의 보다 일반화된 변형으로, 바둑뿐만 아니라 쇼기와 체스도 할 수 있다. AZ와 AGZ의 차이점은 다음과 같다.^[8]

AZ는 검색 하이퍼파라미터 설정을 위한 하드코딩된 규칙을 가지고 있다.
신경망은 이제 지속적으로 업데이트된다.
체스(바둑과 달리)는 무승부로 끝날 수 있으므로, AZ는 무승부 가능성을 고려할 수 있다.

8. 1. 릴라 제로

릴라 제로는 알파고 논문의 아이디어를 기반으로 한 오픈 소스 프로그램이다. 릴라 제로는 최신 버전의 알파고가 사용하는 TPU 대신 GPU를 사용한다.^[8]

참조

_[1] 논문 Mastering the game of Go without human knowledge http://discovery.ucl[...] 2019-09-02
_[2] 웹사이트 AlphaGo Zero: Learning from scratch https://deepmind.com[...] DeepMind official website 2017-10-19
_[3] 웹사이트 Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone https://finance.yaho[...] Yahoo! Finance 2017-10-19
_[4] 뉴스 AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days https://www.telegrap[...] 2017-10-19
_[5] 문서 mnj12/chessDeepLearning https://github.com/m[...] 2021-07-07
_[6] 웹사이트 DeepMind AlphaGo Zero learns on its own without meatbag intervention https://www.zdnet.co[...] ZDNet 2017-10-20
_[7] URL https://www.idi.ntnu[...]
_[8] 간행물 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 2017-12-05
_[9] 뉴스 Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours https://www.telegrap[...] 2018-04-05
_[10] 뉴스 AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor https://www.scientif[...] 2017-10-20
_[11] 뉴스 Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge' https://www.npr.org/[...] 2017-10-18
_[12] 뉴스 Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone http://fortune.com/2[...] 2017-10-19
_[13] 웹사이트 Data on Notable AI Models https://epoch.ai/dat[...] 2024-11-29
_[14] 뉴스 This computer program can beat humans at Go—with no human instruction https://www.science.[...] 2017-10-18
_[15] 뉴스 Self-taught AI is best yet at strategy game Go https://www.nature.c[...] 2017-10-18
_[16] 뉴스 The latest AI can work things out without being taught https://www.economis[...] 2017-10-20
_[17] 뉴스 "'It's able to create knowledge itself': Google unveils AI that learns on its own" https://www.theguard[...] 2017-10-18
_[18] 뉴스 AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days https://www.telegrap[...] 2017-10-18
_[19] 뉴스 "'It's able to create knowledge itself': Google unveils AI that learns on its own" https://www.theguard[...] 2017-10-18
_[20] 뉴스 How Google's new AI can teach itself to beat you at the most complex games http://www.abc.net.a[...] 2017-10-19
_[21] 뉴스 Go Players Excited About 'More Humanlike' AlphaGo Zero http://koreabizwire.[...] 2017-10-19
_[22] 뉴스 New version of AlphaGo can master Weiqi without human help http://www.ecns.cn/2[...] 2017-10-19
_[23] 웹사이트 【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解 http://www.sohu.com/[...] Sohu 2017-06-01
_[24] 문서
_[25] 웹사이트 Mastering the game of Go without human knowledge https://www.nature.c[...] ネイチャー|Nature 2017-10-19
_[26] 웹사이트 AlphaGo Zero: Learning from scratch https://deepmind.com[...] DeepMind official website 2017-10-19
_[27] 웹사이트 Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone https://finance.yaho[...] Yahoo! Finance 2017-10-19
_[28] 웹사이트 AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days http://www.telegraph[...] Telegraph.co.uk 2017-10-19
_[29] 웹사이트 DeepMind AlphaGo Zero learns on its own without meatbag intervention http://www.zdnet.com[...] ZDNet 2017-10-20
_[30] 웹사이트 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/ab[...] 2017-12-23
_[31] 웹사이트 Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours http://www.telegraph[...] 2017-12-23
_[32] 뉴스 AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor https://www.scientif[...] 2017-10-20
_[33] 뉴스 Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge' http://www.npr.org/s[...] 2017-10-18
_[34] 뉴스 Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone http://fortune.com/2[...] 2017-10-19
_[35] 뉴스 This computer program can beat humans at Go—with no human instruction http://www.sciencema[...] 2017-10-18
_[36] 뉴스 The latest AI can work things out without being taught https://www.economis[...] The Economist 2017-10-20
_[37] 뉴스 "'It's able to create knowledge itself': Google unveils AI that learns on its own" https://www.theguard[...] The Guardian 2017-10-18
_[38] 뉴스 How Google's new AI can teach itself to beat you at the most complex games http://www.abc.net.a[...] Australian Broadcasting Corporation 2017-10-19
_[39] 뉴스 Go Players Excited About ‘More Humanlike’ AlphaGo Zero http://koreabizwire.[...] Korea Bizwire 2017-10-19
_[40] 뉴스 New version of AlphaGo can master Weiqi without human help http://www.ecns.cn/2[...] China News Service 2017-10-19
_[41] 웹사이트 【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解 http://www.sohu.com/[...] Sohu 2017-05-24
_[42] 논문 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 2017-12-05

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com