[새통사]인공지능의 강화학습

글: 이순석 ETRI 커뮤니케이션전략부장

이번 141차 새통사 모임에는 공학 예술가라 부르고 싶은 신경과학자·인공지능학자 이정원 박사님을 모시고 강화학습(Reinforcement learning)에 대해 이야기를 듣고 생각을 나누는 시간을 가졌다. ETRI 정규교육프로그램이 운영되는 시기라 소형강의실에 자리를 잡아 찾아오시는 손님들께 불편함을 드려 죄송한 마음을 숨길 수 없다.

인공지능은 인간의 감각기능과 운동기능에 대한 도전이다. 이 기술은 인간의 지능 영역에 대한 도전뿐만 아니라 감정 영역과 이성 영역(Computational Thinking)에 대해서도 도전 중이다. 머지않아 인간의 감성 능력(Context-aware Comunication)과 지성능력(Constructive Thinking)에도 도전해 올 것이다. 수많은 영역에서 인간 감정의 산란함과 인간의 끈기·섬세함의 한계를 인공지능으로 이양하려는 움직임이 보인다.

이정원 박사님은 이미 새통사에 4번의 재능기부 강연을 해주셨다. <통찰의 시대> <알파고와 함께한 놀라운 일주일> <생각의 기원> <AI로미오와 신경과학 줄리엣> 이란 주제로 줄곧 인간과 인공지능을 넘나들었고, 인간과 인공지능 간 상호보완적 발전 가능성을 제시해 많은 청중들에게 영감을 던져주셨다.

이번 강화학습 강연을 위해 김승현 박사님과 무려 142시간 동안 함께한 끝에 유일무이한 강연을 만들었다. 당초 인공지능을 공부하는 사람들을 대상으로 4시간짜리 튜토리얼로 만든 강연을 2시간짜리 대중강연으로 변환했다. 강연 당일 무려 5시간의 집중적인 플롯 재수정 작업을 진행하는 등 수고를 아끼지 않았다.

이정원 박사님은 언제나 자신이 하는 일에 열정적이다. 그의 Time Tree(시간 관계도)를 보면 현재 진행 중인 프로젝트만 12개일 만큼 역동적으로 움직이고 있다. 이정원 박사님이 이끄는 GTA 커뮤니티는 '마이티 게임' 인공지능 개발에 도움을 주고자 6주간의 밤샘 작업으로 마이티 게임환경을 파이썬으로 구현했다. 마이티 게임환경을 Seoul AI(한국판 Open AI) Github에 올려 공유하고 있다.

현재 최고의 마이티 인공지능을 만들고자 '알파마' 프로젝트를 추진하고 있다. 그러한 힘의 원천을 묻자 "좋아하는 사람과 좋아하는 일을 하며 팀워크를 느끼는 것"이라고 언급했다. 이러한 팀워크가 엄청난 내적 보상이라고 말했다. 대한민국 연구개발 정책과 제도에 던지는 의미심장한 말씀이 아닌가 싶다. 우리의 정책과 제도는 눈에 보이지 않는 효율이나 효과에 대해 얼마나 깊은 고민을 하고 있는지 이 지면을 빌어 질문을 던지고 싶다.

◆ 삶의 방식에 대한 과학적 해석

이정원 박사님의 강연은 '인생은 매 순간 선택의 연속이다'라는 말로 시작했다. 인간은 인지 가능한 상황에서 매 순간 선택(행동예측)하고 실제 행동한다. 이를 통해 인지된 상황의 되먹임 차이를 경험하며 또 다른 선택과 행동을 하며 차이를 경험한다.

수많은 학문 분야에서 인간을 이해하기 위한 다양한 접근이 있었지만, 시스템 차원에서 크게 두자기 접근방식이 있다. 하나는 모든 것이 확정적인 인과관계를 가지고 있다는 믿음으로 세상을 해석하는 방법론자들이 있다. 바로 결정론적 시스템 (Deterministic System) 관이다. 다른 한쪽은 모든 것이 가능성으로만 이야기할 수 있는 확률론적 시스템(Stochastic System) 관이다.

오랜 기간 두 시스템 관이 유지되어 왔지만, 70년대 들어 카오스시스템관(초기조건에 지수적으로 민감해 시간 변화에 따른 시스템의 동적 특성이 결정적으로 정의할 수 없는 복잡한 형태)이 등장했다. 어쩌면 인간에게는 결정론적 시스템과 확률론적 시스템과 카오스 시스템이 혼재하거나 각자의 삶의 방식에 따라 시스템이 고착화되는 것이 아닌가 하는 생각을 잠시나마 해보게 된다.

최근 뇌과학적 발견은 이 박사님이 인공지능 기술 분야를 구분한 것처럼 인간 머릿속에는 분류기와 시뮬레이터, 의사 결정기를 가지고 있는 것으로 해석된다. 누구에게나 주어지는 능력이지만, 자신을 어떻게 운용하느냐에 따라 지신이 운영하는 시스템이 결정된다.

토마스 쿤도는 과학자들이 수집한 데이터를 자신의 편향된 시각으로 봄으로써 과학적 혁명을 일으킬 수많은 기회들이 날아갔다고 말하지 않았는가. 137억 년의 지구 진화역사와 40억 년의 지구생명역사가 고스란히 우리 몸속에 기억되어 있지만, 이것은 매 순간 선택을 돕는 기본 판단의 근거로 작용한다. 우리는 이것을 확률적으로 표현할 수 있다.

매 순간 확률적으로 상황에 대응하다가 선택과 결과에 대한 일관된 보상이 이어지면 그 사건에 대해서는 기계적으로 동작할 수 있다는 생각이 든다. 이정원 박사님이 지난 133차 강연(AI 로미오와 신경과학 줄리엣)에서 말한 대로 Grid Cell이나 Position Cell, Boundary Cell, Direction Cell의 출현이 그러한 것이 아닌가 싶다. 신경세포들의 출현이 확률론적 시스템에서 카오스적 시스템으로 진화한 것이 아닐까 질문을 던져보게 된다. 그러다 자신의 신념이나 편견 등으로 카오스적 시스템이 결정론적 시스템으로 변질 될 수 있지 않을지 재미난 상상을 해봅니다.

◆ 강화학습, Prediction

확률론자들은 인간의 의사결정 구조를 수적으로 표현한다. 확률론적 시스템은 복잡하다. 그래서 결정론적 시스템의 최적화 이론처럼 다양한 이론들이 존재하지 않는다. 단계별로 인간의 의사결정 구조를 가장 잘 표현하는 것이 결정 과정이다. 의사 결정에 과거 역사도 영향을 줄 수 있다. 하지만 그렇게 모형화해서는 주어진 문제를 풀 수 없다. 그래서 의사결정은 그 직전 단계의 상태에 대해서만 영향을 받는다는 'Markov Process' 관점에서 세워진 의사결정모형 'Markov Decision Process'다.

사실 이 MDP도 컴퓨터가 출현하지 않았다면 이 세상에서 사라졌을지 모른다. 해야 할 계산량이 엄청나기 때문이다. 사람마다 다르겠지만 의사결정을 할 때 고려하는 대상은 모두 다르다. 선택 직전에 떠오르는 생각 하나만을 기초로 선택하면 좋지만, 사람은 그렇지 않다. 그렇기 때문에 모형은 일반성을 확보하고 있어야 한다. 뇌과학에서도 인간의 뇌에 보상 체계가 뇌 작동 메커니즘에 깊은 연결이 있다고 말한다.

한 상태에서 다음을 선택하고 행동하면 그다음 상태가 만들어지고 그에 따른 심리적 보상을 느낀다. 여기서 사람들은 행동 이전에 행동을 선택하는 판단 근거가 있다. 누구나 다르다. 그 판단 근거를 정책이라고 한다. 한 상황에서 최선의 행동을 선택하는 정책의 최적화된 정책이라고 한다. DP는 최적정책을 구하는 것이 목표다.

어떤 것이 최적정책일까? 최대의 이익과 보상의 기댓값을 만들어 낼 수 있는 정책이 최적정책이다. 단판 게임을 한다고 하면 이 보상의 기댓값을 구하는 것은 쉽다. 하지만 인생을 100년 잘 살기 위한 결정, 100년이 가는 기업을 만들기 위한 결정과 같은 일련의 긴 스텝을 거쳐야 하는 경우는 보상의 기댓값, 즉 가치를 계산하는 것이 간단하지 않다.

그렇지만 요즘은 계산식만 잘 만들면 컴퓨터가 잘 계산해준다. 이 계산식을 근사하게 만들어 주는 것이 벨만 방정식(Bellman Equation)이다. 이론적으로 벨만방정식은 현 상태에서 어떤 정책에 대해 다음단계에 일어날 수 있는 모든 상태를 단계볼로 보상의 기댓값을 계산하는 것이다. 문제는 주변환경에 대한 모형화, 즉 어떤 상태에서 어떤 상태로 옮겨갈 확률값을 모두 정의할 수 있어야 한다. 이것이 MDP의 한계다. 확률값을 정의할 수 없다면 가치를 정의할 수 없다. 가치를 정의할 수 없다면, 최적정책을 정의할 수 없다. 모델을 안다는 것은 주변 환경의 변화를 모두 안다는 것인데 인간이 그것을 알기는 불가능하다.

새로운 가능성을 발견한 것이 행동가치 함수(Action-Value Fuction)이란 개념이다. 어떤 상태에서 어떤 상태로 전이될 확률은 모르지만, 상태변화가 생길 때 어떤 보상이 일어나는지를 안다면, 어떤 상태에서 취할 수 있는 모든 행동을 취해보고 그 가치를 평가할 수 있다. 이것이 강화학습 개념의 시작이다.

인간은 습관적 행동을 한다. 생명 진화역사를 고스란히 승계한 것이다. 바로 선조체(corpus striatum)가 습관행동을 담당한다. 습관적 행동을 담당하기에 행동의 절차를 학습하는 기능을 담당한다. 또 하나가 보상학습 기능을 가진다. 보상이 생기면 그 보상에 따라 행동학습이 변할 수 있다. 습관행동이 아니라 새로운 행동으로 새로운 기억의 확장이 일어난다.

또 예측과 선택이라는 측면에서 보상학습 메커니즘도 뇌에는 존재한다. 행동의 동기부여는 바로 인간의 의지에서 출발한다. 의지는 감정을 분출시키면 도파민을 분출한다. 도파민은 뇌를 활성화 시키며 전체적인 학습을 강화한다. 수학적 접근방법은 뇌과학적 발견을 끊임없이 접목한다.

가치함수를 계산하는데 전통적인 DP 방식은 손이 많이 가고 어렵다. 해석적 방법론의 한계다. 이것의 한계를 극복하는 돌파구가 시뮬레이션이다. 매 순간 주사위를 던져 판단을 결정하듯 난수를 발생시켜 판단을 해보는 방법이다. 우리에게도 익숙한 Monte-Carlo법이다. 매 상태에서 다음 상태를 랜덤 추출하고 또 랜덤 추출을 반복하면 하나의 Sample Path를 랜덤하게 선택해 가치를 계산하는 방법이 고안된다.

다음 상태가 하나면 랜덤하게 선택해 계산을 단계별로 빠르게 판단해보자는 방식이 나온다. 전자를 Monte-Carlo Prediction이라 하고 후자를 Temporal-Difference Predicion이라 한다. 이 방법은 모든 경우에 대한 전이확률값을 알아내기 현실적으로 불가능하기에 시뮬레이션이라는 방법을 사용해 의사결정을 해보자는 것이다. Temporal-Difference Prediction은 게임의 매 순간 바로 가치값을 갱신할 수 있는 장점까지 있음을 발견한다.

◆ 강화학습, Control

사람이 의사결정을 할 때, 의사결정시스템을 모두 알고 있는 경우에는 모든 경우의 수를 고려해 최대의 기대보상값을 갖는 선택을 취하면 된다. 그러나 모든 것을 알 수 없다. 모든 경우의 수에 대한 확률값을 정의하기 어렵다. 그래서 액션을 전제로 하는 시뮬레이션 방법을 고안해 냈다. 그렇게 해서 최적정책을 결정하는데 필요한 기대보상값을 계산하는 방법을 고안했다. 이제 그것을 기초로 최적정책의 결정에 대해 생각해볼 시간이다.

최적정책을 골랐을 때 '가치 함수들의 값과 정책에 상관없이 구한 최적 가치함수의 값들이 같을까 다를까'라는 질문을 던져볼 수 있다. 이런 질문에 대한 답이 같다라면 항상 같은 정책을 얻게 된다는 사실을 이야기하는 것이다. 벨만방정식을 이용해 최적 가치함수를 찾을 수 있다. 이것이 value iteration 방법이다.

또 한 가지 방법은 Policy iteration 방법이다. 임의로 선택한 정책을 모든 상태의 value function으로 갱신해 greedy한 정책 향상을 이끄는 것이다. 다음 iteration에서는 갱신된 정책에 대해 value function을 갱신하고, 다시 정책 향상을 해가는 방식이다.

◆ 강화학습, Deep Learning

가치함수를 계산식으로 접근하는 방식에서 계산식을 Deep Learning 신경망을 학습해 근사화하는 방법을 도입하는 것이 Deep Learning 강화학습법이다.

SARSA (TD on-policy control)법에서 Q function을 신경망으로 근사화한 것이 Deep SARSA이고, 이 방법으로 마치 공격과 방어가 일어나는 환경에서의 답을 찾아가는 문제에 도전할 수 있게 해준다. 두 번째는 Q-learning (TF off-policy control)에서 Q function을 신경망으로 근사화한 것이 Q Network 모델이다. 이 모델은 Target까지도 움직일 수 있는 문제를 풀 수 있도록 만든 모델이다. Target이 계속적으로 변화는 상황에서 답을 찾아가기 위하여 Target Network의 설정과 과거의 경험간의 차이값을 참조하여 답을 쫓아가는 모델을 개발한 것이 DQN model인데, 이것이 알파고의 엔진이다.

이젠 policy자체가 지속적으로 변화는 상황에 대해서는 어떤 접근방식이 더 효과적인 것일까. 이것에 대한 고민도 활발하게 전개되고 있다. 이른바 정책근사화 방법이다. Policy를 조금씩 조금씩 움직여 가는 Monte-carlo Policy gradient (REINFOCE)가 있고 policy gradient와 action-value fuction을 동시에 근사화하는 Actor-critic (A2C) policy gradient 방식이 있는데, 전자는 episode (sample path) 전체에 대해서 gradient를 구해서 학습한다. A2C는 action을 해보고 그 action의 action value function이 높았으면 그 action을 할 확률을 높이도록 policy의 parameter를 update하는 방식이다. 후자는 one-step에 대해서만 학습을 한다. 이 계열은 여전히 과거의 경험을 축적하기 때문에 on-policy 계보를 잇는 것이다.

A3C라는 방법이 있다. Asychronous Advantage Actor-Critic (A3C)라는 방법이 있다. 여러개의 A2C신경망을 사용하여 Critic과 Actor를 Asynchrous하게 Global Model을 갱신해가는 방법이다.

◆ 기계는 인간으로부터 배우고, 인간은 기계로부터 배운다

뇌과학적 지식으로 인간을 모사하는 인공지능을 만들고, 인공지능의 학습효과로부터 뇌의 학습방법을 역으로 확인할 수 있는 시대가 도래했다. 기계에서 강화학습 메커니즘이 작동하듯 기계의 원형이 뇌에도 강화학습 회로가 있다. 기계와 인간의 회로상의 차이는 보상을 주는 대상이다. 기계는 외적 보상을 받고, 인간은 내적 보상을 받는다.

리사 배럿 박사의 <감정은 어떻게 만들어지는가>라는 책에서 인간은 사실상 자신이 설계하는 대로 만들어진다는 사실을 언급한다. '무엇이 설계하도록 하는 것인가'라는 질문이 나올 수밖에 없다. 인간은 스스로 자신만의 보상을 만들어낸다. 어린 시절 수많은 시행착오를 겪으면서 새로운 경험을 축적하는 희열이 바로 보상이다.

어느 정도 자라고 나면 자신의 행동습관과 사고 습관이 일정한 범위 내로 한정되면 일상적인 예측을 하면서 산다. 이것이 함정이다. 일상적인 예측은 새로운 놀라운 발견을 주지 못한다. 새롭고 놀라운 발견을 주지 않는 것은 인간이 습관행동에만 매몰되게 한다. 그 습관행동을 끊어내는 가장 간단한 것은 아주 작은 용기 하나다. 다른 생각, 다른 행동 하나를 일으키는 것이다. 뇌에 평소에 해오던 예측과 다른 신호들이 들어온다. 뇌는 놀라움에 습관행동을 멈추고 새로운 것을 받아들인다.

그러한 새로움을 경험하는 즐거움의 보상이 인간에게는 있다. 보상이 누적되면 인간은 점점 새로운 경험기억과 지식들을 누적하게 된다. 그 속에서 가치를 발견하는 고등회로가 작동하고 또 그것을 계기로 의지를 굳힌다. 더욱 수준 높은 회로가 작동하는 것이다. 인간이 다른 동물, 기계와 다른 점은 내적 보상의 축적인 '의지'를 가진다는 것이다. 높은 수준의 의지는 인간을 환경으로부터 자유와 자신이 정해가는 지각의 범주화에 대한 경계를 초월한다 의지의 수준은 점점 높아진다. 이것이 기계와 구별되는 인간의 유일무이한 힘이 아닐까 싶다.

엄청난 스케줄 압박에도 스스로의 내적 보상을 만들며 새통사에 아낌없는 시간을 허락해주신 이정원 박사님께 다시 한번 진심으로 감사드린다. 이른 시간 내에 강화학습 책이 출간돼 많은 사람들이 강화학습을 즐길 수 있는 시간이 오길 기원하고, 응원합니다.

상단영역

본문영역