‘혼자서도 잘해요’ 알파고 넘어선 알파고…비결은 ‘독학’

'알파고 제로' 공개 / 사진=구글 딥마인드

[아시아경제 고정호 기자]이세돌, 커제 등 인간 바둑 고수들을 넘어선 인공지능 바둑 프로그램 ‘알파고’를 뛰어넘은 ‘알파고 제로’가 공개됐다. 새로 공개된 ‘알파고 제로’는 인간의 도움 없이 스스로 바둑을 익히는 ‘강화 학습’을 통해 인간 고수뿐만 아니라 기존 알파고 마저 압도하는 실력을 갖추게 됐다.구글 딥마인드 측은 19일 과학 전문 국제학술지 ‘네이처(Nature)’에 이같은 내용을 담은 ‘사람의 지식 없이 바둑 마스터하기(Mastering the game of Go without human knowledge)’라는 제목의 논문을 게재했다.이번에 공개된 ‘알파고 제로’와 지난해 3월 ‘구글 딥마인드 챌린지’에서 이세돌 九단을 4대 1로 이긴 ‘알파고 리’, 그리고 올해 5월 현재 세계랭킹 1위인 중국의 커제 九단을 3대 0으로 꺾은 ‘알파고 마스터’의 가장 큰 차이점은 학습방법에 있다.

훈련 시간에 따른 알파고 제로(파란 실선), 알파고 리(파란 점선)의 실력 비교. 보라색 실선은 인간으로부터 지도 학습을 받은 알파고 제로의 성장을 나타낸다 / 사진=네이처

‘알파고 리’와 ‘알파고 마스터’는 인간의 기보 입력과 같은 ‘지도 학습’을 바탕으로 성장한 반면 ‘알파고 제로’는 기보 입력, 정석, 포석 등의 정보 없이 바둑의 기본적인 룰만을 가진 채 독학하는 방식으로 성장했다.이처럼 바둑판만 놓고 무작위 착수로 ‘셀프 바둑’을 두기 시작한 ‘알파고 제로’는 독학 72시간만에 ‘알파고 리’를 100승 무패로 압도했고 독학 40일이 되자 ‘알파고 마스터’를 89승 11패로 압도하는 기염을 토했다.‘알파고 제로’와 같이 사전 지도 학습 없이 기계가 독학하도록 하는 기계 학습의 한 영역을 강화 학습이라고 한다. 강화 학습은 기계가 수많은 시행착오를 통해 현재의 상태에서 어떤 행동을 취하는 것이 최선인지 스스로 요령을 터득하는 방법이다.논문의 공동 제1저자 중 한 명인 데이비드 실버는 시간이 지날수록 바둑을 ‘독학’한 ‘알파고 제로’가 기존 버전들보다 강해지는 이유에 대해 “인간 지식의 한계에 더 이상 속박되지 않기 때문”이라고 분석했다.구글 딥마인드 측 또한 논문에서 ‘알파고 제로’가 학습 과정에서 “사람이 그간 쌓아온 바둑에 대한 접근법과는 질적으로 다른 전략을 알파고 제로가 깨우친 것 같다”고 설명했다.

데미스 허사비스 최고경영자 / 사진=구글 딥마인드

데미스 허사비스 구글 딥마인드 최고경영자는 이같은 강화 학습이 인류가 직면한 난제들을 해결할 창조적 방법을 제시할 수 있다며 “알파고 제로에 적용된 것과 비슷한 기술이 단백질 접힘(각 단백질에 고유한 접힌 구조가 만들어지는 과정)과 에너지 소비 절감, 혁신적인 신소재 개발과 같은 다른 구조적 문제에 적용되면 사회에 긍정적 영향을 미치는 혁신을 낳을 것이다”고 말했다.고정호 기자 jhkho2840@asiae.co.kr<ⓒ세계를 보는 창 경제를 보는 눈, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

이슈팀 고정호 기자 jhkho2840@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스