ETRI·솔트룩스·KAIST, 산학연 컨소시엄 주관,
자연어 처리·분석 기술 기반 특허·법률 분야 응용기술 개발 추진
학습데이터 축적 필요···생태계 구축도 추진

#1. 지난 2016년 열린 '대결! 엑소브레인' 장학퀴즈 대회는 국내 최초 인간과 인공지능의 대결로 관심을 받았다. 엑소브레인은 인간 퀴즈왕 4명과 대결해 510대 350으로 압도적인 승리를 거뒀다.

#2. '이 특허출원서와 중복되는 선행특허는?'이라는 질문을 검색창에 입력하자 관련 특허 목록이 신뢰성 높은 순서대로 표시된다. 다시 '지난해 최저임금이 얼마인가요?'라고 입력해보면 국가법령정보센터의 법률 조항을 근거로 도출된 금액을 확인할 수 있다. 

'엑소브레인(Exobrain)'이 진화하고 있다. 퀴즈를 넘어 법률, 특허 등으로 영역을 확장하며 전문가 판단까지 지원하는 연구개발이 진행 중이다. 현실적으로 넘어야 할 기술 장벽이 작지 않다. 하지만 질문에 맞춰 법률 조항을 확인하는 등 보조 수단으로 활용 가능성이 점차 커지는 추세다. 

엑소브레인은 '내 몸 밖의 인공두뇌'라는 뜻의 인공지능 분야 국가 R&D 과제다. 언어를 이해하고, 지식을 학습해 전문지식을 제공하는 언어지능 소프트웨어 개발을 목표로 지난 2013년부터 시작돼 오는 2022년 연구개발이 완료될 예정이다.

ETRI, 솔트룩스, KAIST가 각 산·학·연 컨소시엄을 주관하며, 총 22개 기관 100여명의 연구진이 참여한다. 연구진은 주로 자연어 이해 기반의 지식을 학습해 사람의 질문에 응답할 수 있는 연구개발에 주력하고 있다. 

현재 핵심 기술 개발이 완료된 단계로, 앞으로 응용 기술 개발, 글로벌 기술 개발 등이 이뤄질 예정이다.

그동안 개발된 학습데이터, 분석 기술 등은 금융업계, 포털업체, 이동통신사, 소프트웨어 개발업체 등에 적용되며, 인공지능 플랫폼, 문맥 맞춤 광고 상용화 기술, 개인정보 비식별화 기술 관련 상용화가 추진되고 있다.  

엑소브레인의 비전.<자료=ETRI 제공>
엑소브레인의 비전.<자료=ETRI 제공>
◆자연어 분석···API 외부 공개

"엑소브레인의 핵심 기술은 인간 수준으로 문법분석을 할 수 있는 한국어 분석 기술, 텍스트 빅데이터를 대상으로 언어지식과 단위지식을 학습하고 저장하는 것입니다. 이를 바탕으로 지식 축적·탐색 기술, 다수 문장으로 구성된 질문을 이해하고 정답을 추론하는 자연어 질의응답 기술이 기반입니다."

엑소브레인 연구총괄 책임자인 김현기 ETRI 박사는 인공지능이 스스로 배우면서 진화하는 기계학습(Machine Learning)이나 데이터 축적에 앞서 자연어 이해와 분석 필요성을 연구개발 중점요소라고 강조했다.  

연구는 사람들이 일상적으로 쓰는 언어인 자연어를 이해하기 위해 형태소분석, 구문분석, 어휘의미 인식 등 문법처리 기술 개발이 중점적으로 이뤄졌다. 

때문에 엑소브레인은 한국어의 언어 문법을 분석한 이후 어휘, 의미 유형을 판별해 질문을 분석한다. 이를 기반으로 법령, 백과사전 등 지식 데이터베이스에서 답을 추출하고, 학습하며 가장 신뢰성이 높은 정답 후보군을 도출한다.   

이 과정에서 축적된 오픈 API는 지난해 11월부터 공개됐다. 오픈 API(Open Application Programming Interface)는 특정 프로그램을 레고 블럭처럼 재조합해서 활용할 수 있도록 웹상에서 제공하는 프로그래밍 인터페이스와 인공지능을 학습시키고 학습결과를 평가하는데 필요한 기계학습 데이터다.

구글, IBM 왓슨 등에서도 오픈 API를 제공하고 있는 가운데 엑소브레인은 한국어 처리에서 더 우수한 솔루션을 제공한다. 실제 국내 중소·벤처기업과 연구자 등이 인공지능 솔루션 개발에 활용하고 있다.

지난달 기준 473여 개의 기관이 엑소브레인 API 사용신청을 하고, 누적 사용 건수는 총 3100만 건이다. 하루 평균 1만 1000건이 활용됐다. 최근에는 오픈 API를 활용한 소프트웨어 등록이나 창업까지 문의하는 이들도 있다.

ETRI는 올해 11월 질의응답·대화처리·영상이해 등으로 범위를 확대해 관련 오픈 API와 기계학습 데이터를 추가 제공할 예정이다.

김현기 ETRI 박사가 자연어 처리에 대해 설명하고 있다.<사진=강민구 기자>
김현기 ETRI 박사가 자연어 처리에 대해 설명하고 있다.<사진=강민구 기자>

지난 2016년 퀴즈 개발 당시 42대가 넘는 서버 컴퓨터가 동원됐다. 소프트웨어뿐만 아니라 하드웨어적 요소도 경량화 등이 이뤄져야 한다.<사진=강민구 기자>
지난 2016년 퀴즈 개발 당시 42대가 넘는 서버 컴퓨터가 동원됐다. 소프트웨어뿐만 아니라 하드웨어적 요소도 경량화 등이 이뤄져야 한다.<사진=강민구 기자>
◆대중 인식과 기술 격차 커···기계학습 데이터 축적 등 함께 이뤄져야

연구개발이 진행되고 있는 상황에서 현실적 난관도 존재한다. 확실한 게임 규칙이 있었던 인공지능 '알파고' 등과 달리 사람의 언어는 불확실성이 크다. 동음 이의어 등을 기계가 상황에 맞게 판별할 수 있어야 한다. 

정확성을 높이기 위해서는 보다 많은 학습 데이터가 축적되고, 기계학습이 이뤄져야 한다. 대중의 높아진 인공지능 기술에 대한 기대감을 충족시키기도 쉽지 않은 부분이다. 한국어 외에 다양한 언어로 확장되고, 단답형에서 서술형으로의 기능 확대도 요구된다. 

현재 연구진은 국회도서관, 특허정보원 등과 협력해 특허, 법률 분야를 중심으로 실증을 추진하고 있다.

이를 통해 전문분야 질의응답 시스템을 구축해 전문지식 질의응답과 지능형 상담이 이뤄질 수 있도록 기술을 최적화하고, 산업 생태계도 구축할 계획이다.  

김현기 박사는 "인공지능 알파고 이후 높아진 대중의 기대감과 현실적 기술 발전 간 괴리감이 적지 않다"라면서 "최근에서야 국내에서 딥러닝 연구가 이뤄지고 있다는 점에서 해당 분야 인력 확보, 학습데이터 축적, 연구개발 등이 종합적으로 이뤄져야 한다"고 말했다.

이어 그는 "앞으로 법률, 특허 분야에 관련 기술을 접목해 성공 사례를 창출할 계획"이라면서 "국내·외 자연어 처리와 질의응답 관련 연구개발을 통해 인공지능 연구개발과 산업화의 시금석을 마련하겠다"라고 덧붙였다.

한편, ETRI는 지난 13일 한국과학기술회관에서 솔트룩스, KAIST와 함께 '엑소브레인 언어지능 심포지엄'을 개최했다.

이 심포지엄에서 엑소브레인 사업에서 그동안 개발된 연구성과와 추진계획을 공유하고 '자연어 처리 및 질의응답' 관련 국내 인공지능 기술과 관련 산업의 발전 방향을 모색하는 시간을 가졌다.

남철기 과기부 인공지능정책팀장은 "엑소브레인 연구성과가 확산되고, 법률이나 특허 등 다양한 분야에서 국내 인공지능 산업이 활성화되기를 기대한다"고 말했다.

저작권자 © 헬로디디 무단전재 및 재배포 금지