딥마인드, AI 강화학습에 신기원 '뮤제로' 공개
Zdnet
◼︎ 딥마인드 - 계획하는 AI, '뮤제로' 딥마인드가 기존의 강화학습에서 한 발 더 나아갔습니다. 기존의 알파고 시리즈들은 바둑의 규칙 내에서 어느 수가 가장 이길 확률이 높은지를 학습하는 모델이었기에 바둑밖에 해결할 수 없다는 제약이 있습니다 (사실 알파고 자신이 바둑을 두고 있는지도 모르고 있죠 ㅎㅎ). 그러나 뮤제로는 규칙 내에서의 수를 찾는 방식이 아니라 규칙 자체를 찾아내는, 즉 planning을 지능적으로 해내기 위한 학습을 하는 방식으로 바꾸어 풀어냈습니다. 이 방식의 장점은 셀 수 없을만큼, 심지어는 슈퍼컴퓨터도 계산하기 버거울 정도의 조합을 평가하는 문제를 전략적으로 접근할 수 있도록 함으로써 매우 효율적이면서도 뛰어난 성능을 내도록 설계할 수 있다는 점입니다. 게다가 꼭 바둑이어야만 할 필요도 없으므로, 범용 AI의 가능성에 좀 더 근접했다는 평가를 받게 되는 것이죠 (범용 AI에 대한 철학적 논쟁은 차치하고서라도). 그리고 그 결과를 아타리게임으로 증명해냈습니다. 간단한(?) 접근방식의 차이만으로도 큰 반향을 일으키고 있는 것은, 그만큼 이 방식이 매우 다양한 도메인에 활용 가능하다는 장점 때문일 겁니다. 앞으로가 더 흥미로운 프로젝트네요.
2020년 12월 31일 오후 1:01