ETRI, 성능 향상된 구어체 언어분석 API 공개
전이학습과 데이터 증강 기법으로 데이터 부족 극복

ETRI에서 개발한 인공지능 '엑소브레인'. 문서 언어를 넘어 사람 말도 정확히 인식할 정도로 학습돼 AI 비서, 챗봇 서비스도 가능할 전망이다.<사진= 대덕넷 DB>
ETRI에서 개발한 인공지능 '엑소브레인'. 문서 언어를 넘어 사람 말도 정확히 인식할 정도로 학습돼 AI 비서, 챗봇 서비스도 가능할 전망이다.<사진= 대덕넷 DB>
국내 연구진이 문서 언어 분석을 넘어 사람간 대화 언어를 분석한 API(Application Programming Interface)를 공개, 사람의 말을 이해하는 인공지능(AI) 개발도 속도를 낼 전망이다.

ETRI(원장 김명준)는 위키백과와 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장시켜, 사람간 대화 분석 오류를 최대한 41%로 개선하고 이해할 수 있는 구어체 언어분석 기술을 개발했다고 6일 밝혔다.

ETRI가 개발한 엑소브레인(Exobrain)은 현재 한컴오피스 2020에 탑재되는 등 이미 상용화가 많이 이뤄진 인공지능이다. 언어분석 기술, 딥러닝 언어모델 기술, 질의응답 기술이 적용됐다. 특히 언어분석 API는 2017년 10월 공개 이후 하루 평균 2만6000건 등 2600만건에 이를 만큼 언어처리분야 연구자들에게 널리 사용된다.

연구진은 기존 문어체 기술을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어분석 기술을 개발하는데 성공했다. 이를 통해 관련 산업 생태계를 활성화하고 AI비서, 챗봇 등 AI 서비스 개발이 한층 가속화 될 전망이다.

ETRI가 공개한 구어체 언어분석 기술은 형태소분석 기술(47개)과 개체명 인식기술(146개)이다. ETRI가 공개한 기술은 한국정보통신기술협회(TTA) 표준가이드 라인에 따른다.

형태소분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 필수로 활용된다. 특히 지난해 코버트(KorBERT) 딥러닝 언어 모델의 기본 입력으로 적용된다. 많은 기업에서도 ETRI 제안 방법과 같이 형태소분석에 기반한 딥러닝 언어모델 기술을 활용 중이다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI 스피커와 챗봇 등 다양한 언어처리 서비스에서 활용도가 높은 기술이다. 예를 들어 '국민은행'이란 단어는 국민과 은행이라는 명사간 결합이 아닌 고유 은행명이라는 점을 인식한다.

연구진에 의하면 구어체 언어분석이 어려운 점은 과업 자체의 난이도와 학습데이터 부족이다. 예를 들어 '경상도인데'를 '경상돈데'라고 말하는 경우 기존 형태소 분석 기술은 '경상도+인데'라는 축약 표현을 인식하지 못한 채 '경상돈+데'라고 분석한다. 또 기계학습과 딥러닝 기술은 대규모 학습데이터를 필요로 하는데 구어체 분야 데이터 확보도 쉽지 않다. 실제 개체명 인식 학습데이터의 경우, 문어체는 약27만건이지만 구어체는 10분의 1 수준인 2만5000건 수준에 불과하다.

연구진은 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용하여 학습데이터 부족 한계를 극복해냈다. 전이학습과 데이터 증강 기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술로 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습이 이뤄진다.

그 결과 구어체 언어분석 API는 기존모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선됐고 오류감소율도 41.74%, 39.38%로 나타났다. 특히 형태소분석은 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.

연구진은 성능이 개선된 문어체 언어분석 API도 추가로 공개했다. 이는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40% 높은 정확도를 보였다.

임준호 언어지능연구실 박사는 "기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발되었음에도 구어체 분야에 많이 적용되고 있었다. 이번 구어체 언어분석 API 공개로 언어분석의 정확도 및 신뢰도를 제고해 국내 인공지능 시장이 더욱 활성화되길 기대한다"고 말했다.

엑소브레인 사업단은 최근 3년간 기술이전 22건, 사업화 17건의 성과를 거뒀다. 추후 딥러닝 언어모델의 지속적인 성능 개선과 추가 공개를 통해 AI 기술 고도화와 플랫폼을 개발할 계획이다.

한편 이번 과제는 2013년부터 과학기술정부통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트로 수행 중이다. 

저작권자 © 헬로디디 무단전재 및 재배포 금지