"강화학습 알고리즘 공부하고 게임하며 개념 복습"

이정원·이주행 ETRI 박사, AI프렌즈 학술세미나서 강화학습 주제로 발표
"모든 것은 선택의 연속···환경과 상호작용 통해 최선의 경우 탐색해야"

이정원 박사는 강화학습의 개념부터 문제 해결 알고리즘까지 자세히 설명했다. <사진=정민아 기자>

"우리는 생명체로 살아가면서 자연현상을 전부 관찰할 수 없지만 관찰 가능한 현상을 분석하며 살아갑니다. 움직임에 따라 새로운 환경을 접하며 순간의 선택마다 상태는 계속해서 달라집니다."

13일 대덕테크비즈센터(TBC)에서 제32회 'AI프렌즈 학술세미나'가 열렸다. 이정원·이주행 ETRI 박사가 발표자로 나서 강화학습 튜토리얼과 알고리즘에 대해 소개하고 스트림스 게임을 진행했다.

이날의 강연 부제인 '서튼 책 씹어먹고 그린 랜드스케이프'는 강화학습의 창시자인 리처드 서튼의 이름을 따서 명명했다. 서튼은 그의 스승인 앤드류 바토와 함께 강화학습 가이드북을 출간했다. 네이처 알파고 논문 제1저자인 데이비드 실버도 서튼의 제자다.

이정원 박사는 강화학습 튜토리얼에 대해 다룬 책 '파이썬 예제와 함께하는 강화학습 입문'을 번역했다. 8월부터 온라인 서점에서도 판매 중이다. 그는 "작년까지만 해도 강화학습에 대해 다룬 책이 국내에 거의 없었다"고 언급하며 "해외에는 강화학습을 다룬 자료가 많은데 국내판은 없는 것에 큰 아쉬움을 느껴 작업에 들어갔다"고 계기를 밝혔다.

그는 강화학습 알고리즘인 MDP에 대해 설명했다. MDP는 매 순간 선택해야 하는 문제를 수학적으로 모델링한 순차적 행동 결정문제다. 특정한 시간에 어떤 행위를 취하면 다음 시간에 일정한 보상이 주어진다. 또 다른 시간에도 행위를 취하면 다음 시간에 보상을 부여받는다. 이러한 학습이 반복되면서 학습체계를 형성한다.

MDP에서 정책이라는 용어는 행동의 주체인 에이전트가 최적의 경우를 찾는 행위를 의미한다. 수학적인 의미에서 최적정책이란 누적 보상을 최대로 하는 정책이다. 미래에 순차적으로 받게 될 보상들의 합은 반환값으로 설정한다.

학습을 진행하면서 즉시 부여받는 보상과 미래에 받게 될 보상이 객관적으로 같은 가치라고 해도 미래의 보상은 현재의 것보다 낮은 기댓값을 가진다. 이에 감가율의 개념을 적용해 기댓값을 보정한다.

최적정책을 찾으려면 각 상태에서 행동에 가치를 부여해 가치값이 가장 높은 상태로 이동해야 한다. 현 정책에서 기대되는 누적보상을 기반으로 최적의 가치함수를 산출한다. 가치함수만 찾아내면 최적정책을 찾아낼 수 있다. 일정한 상황에서 가장 큰 가치를 찾아가면 다음 행동을 선택할 수 있기 때문이다.

최적정책을 구하는 데는 GPI(Generalized Policy Iteration) 방식을 활용할 수 있다. 현재 정책의 가치함수를 계산해서 업데이트하는 정책평가와 새로운 가치함수를 활용하는 정책발전을 반복하면 최적정책으로 값이 수렴한다.

이외에도 살사, Q러닝, DQN, A3C 등 다양한 학습방법이 존재한다. 그는 "각 방식마다 장단점이 명확하기 때문에 상황에 따라 적절히 사용하는 것이 중요하다"고 강조하면서 "단순계산만으로 값을 구하지 말고 환경과의 상호작용을 통해 가치함수를 알아내야 한다"고 덧붙였다.

이주행 박사는 스트림스 게임 문제해결에 강화학습을 적용했다. <사진=정민아 기자>

이어서 이주행 박사는 "앞선 강연에서 강화학습의 개념에 대해 공부했으니 게임을 통해 재미있게 학습을 마무리하겠다"고 밝히며 스트림스 게임을 소개했다.

스트림스는 주머니에 들어 있는 숫자를 하나씩 꺼내 빈칸에 나열하는 보드게임의 일종으로 시중에서 쉽게 구매할 수 있다. 1부터 30까지의 숫자가 주머니에 들어있는데 플레이어는 이를 20개의 칸에 오름차순으로 배열한다. 단 주머니에 있는 숫자는 진행자가 하나씩 꺼내기 때문에 다음에 어떤 수가 나올지 미리 알 수 없다. 게임판이 가득 찼을 때 오름차순 스트림마다 환산점수를 부여하고 총합이 가장 높은 점수를 기록하는 사람이 이기게 된다.

스트림스는 규칙과 탐색을 기반으로 수학적, 전략적 알고리즘을 사용해야 한다는 점에서 강화학습과 유사점을 가진다. 이에 이 박사는 스트림스에 강화학습 알고리즘을 적용한 학습을 진행했다.

스트림스 문제해결 학습에서 수의 규칙을 이용해 어느 정도까지는 예측성능을 쉽게 끌어올릴 수 있다. 그러나 섬세한 규칙을 모두 코딩하는 과정이 까다롭고 경우의 수가 매우 많기 때문에 확률 모델을 적용해 체계적으로 문제를 해결해야 한다.

1부터 30까지의 숫자를 20칸에 배열하는 S20.30 스트림스의 첫 학습에서는 총합 12점을 기록하며 매우 낮은 예측성능을 보였다. 그러나 2년간의 체계적인 학습을 진행한 후에는 50점에 육박하는 점수를 기록할 만큼 성능이 향상됐다.

이 박사는 현장에서 청중들과 함께 스트림스 게임을 진행했다. 청중들은 이 박사가 부르는 수 하나하나에 귀를 기울였다. 대부분의 사람들이 어느 정도까지는 오름차순으로 수를 적절히 배열했지만 일정 수준 이상으로 수를 예측하는 데는 명확한 한계를 보였다.

그는 "스트림스 예측에서 아직도 해결하지 못한 부분이 존재하지만 학습된 인공지능이 문제 해결의 묘수를 스스로 찾아내 강화학습의 가능성을 실감할 수 있었다"며 학습의 의미를 강조했다.

한편 AI프렌즈 학술세미나는 '혁신네트워크: AI프렌즈'에서 AI멤버십 모임과 함께 격주로 진행하는 행사로, 페이스북의 AI프렌즈 페이지를 통해서 모임과 행사 일정 등을 안내받을 수 있다.

상단영역

본문영역