[생생일본통] 일경일렉트로닉스 'AI 통번역 시장 및 기술동향' 특집기사로
신경망 기계번역, 이미 사람 수준으로

대덕넷이 일본 과학기술 및 산업계 최신 동향을 소개하는 '생생일본통'을 연재합니다. 해동일본기술정보센터의 지원을 받아 일본의 기술서적과 정기간행물, 일본 정부 산업계 백서 등 다양한 정보를 번역해 제공합니다. 더 많은 최신 일본 기술정보는 해동일본기술정보센터 홈페이지를 통해 확인 할 수 있습니다.<편집자 주>

어학 공부를 하지 않아도 전세계 사람들과 의사소통이 가능한 시대가 오고있다. 인공지능(AI)을 사용한 신경망 기계번역(NMT:Neural Machine Translaion) 기술이 맹렬한 기세로 발전하고 있기 때문이다. 

언어의 장벽이 대폭 낮아짐에 따라 번역 업계도 변화의 바람이 불기 시작했다. 거리에서는 자동번역기가 급증하고, 관광업계 및 점포, 운송, 병원 등으로 보급되기 시작했다. 미래에는 자동번역기가 1인 1대씩 보급될 가능성도 있다.

일경일렉트로닉스가 9월호 월간지를 통해 'AI 번역'을 다뤘다. 자세한 내용을 하단에 소개한다.

# 제 1부: 시장 동향
1인 1대 자동번역기, 다(多)언어 '통역'이 주머니 속으로

◆ 1인 1대 자동번역기 시대 온다 '30년 기술 단숨 능가'

"번역업계 전체가 번개를 맞은 것 같은 충격에 휩싸였다. 이것은 50년에 한 번 있는 파괴적인 기술이다."

일본번역연맹(JTF) 이사이며 Xtra 대표이사장인 후루타니(古谷) 로제타 집행위원은 2016년 11월, 미국 구글이  'Google번역' 기술을 이전의 통계기반 기계번역(SMT)에서 심층학습 기반의 '신경망 기계번역(NMT)'으로 전환했을 당시의 임팩트에 대해 이렇게 설명했다. 

이에 충격을 받은 후루타니 집행위원은 곧바로 업계 재편에 나서며 2017년 11월, 본인이 이끌어 오던 GMO스피드번역을 로제타에게 매각했다.

인터넷 상의 온라인 번역 서비스는 인터넷의 여명기 때부터 존재했다. 다만 당시의 번역 정밀도는 낮았기 때문에 영어를 일본어로 번역하는데 있어서 그 의미의 개요를 겨우 이해할 정도였다. 영어 이외의 외국어는 일본어로 번역해도 의미가 통하지 않는 것이 대부분이었다. 

당시 온라인 번역 서비스에서 오랫동안 사용되던 기술이 SMT이다. 2000년 전후에 다소 정밀도가 향상되었다고 하지만, 사람이 읽을 수 있는 문장에 출력 결과를 그대로 사용하기에는 무리가 있었다.

한편, NMT(신경망 기계번역)는 2013년에 첫 모습을 드러냈다. 빠른 속도로 정밀도를 높여 2016년에는 번역 정밀도의 지표가 되는 BLEU 스코어가 SMT의 약 20을 넘어 2018년에는 35까지 향상되었다. 

스코어 35란 문제없이 의미가 전달되고 문장으로서도 자연스럽다고 말할 수 있는 수준을 뜻한다. 또한 그 수치는 BLEU 스코어가 약간 나오기 힘든 영어를 독일어로 번역할 경우이며 영어와 프랑스어, 영어와 중국어 등에서는 거의 40대의 스코어로 고품질 번역이라고 할 수 있는 수준에 도달해 있다. 

JTF의 이사로 활동 중인 스미타(隅田) 정보통신연구기구(NICT) 석학회원은 "2020년에는 번역 정밀도가 BLEU 스코어로 60 이상(평균적인 사람을 넘어 선 수준)이 될 것이다"라고 전망했다.

◆ 영어를 중국어로, 프로 수준으로 

특정 언어간에는 이미 'Human Parity(인간 수준)'라는 보고가 들려오고 있다. 인간이라고 해도 일반인이 아닌, 프로 번역자 수준이라는 뜻이다.

그 선두주자는 미국의 마이크로소프트로서 2018년 5월 중국어의 뉴스 기사를 영어로 번역하는데 성공한 'Human Parity'다.  

2018년 여름 학회 'WMT 2018'에서는 영어를 체코어로 번역하는데 프로 번역가를 능가하는 'Super Human'이라고 보고되었다. WMT 2019에서는 영어를 독일어로 번역하는 것에서 인간을 능가했다고 평가됐다. 거의 모든 언어가 이와 같이 인간 수준, 또는 인간을 능가하는 수준이 되는 것도 머지않았다.

◆ 일본어를 영어로, 거의 프로 수준에 육박 

일본어와 영어 간의 번역은 어떨까? 이것은 아직 인간만큼은 아니지만, 프로 번역자에 육박하는 수준이 되고 있다. 고품질 번역 서비스인 미라이(未來)번역에서는 NICT의 NMT 기술을 기반으로 영작문 정보 전달 능력이 영어 커뮤니케이션 능력 테스트인 TOEIC 960점의 직장인에 준하는 수준에 도달했다. 유창함에 있어서 프로 번역가와 거의 비슷한 수준이다. 다만 영문을 일본어로 번역할 때는 유창함에서 프로에 조금 못 미친다고 한다.

◆ 일본 방문객의 문의는 수십 만 건 

전용 단말기 이외의 도입 사례도 늘어나고 있다. 재팬 택시가 그 시작이었고 최근 게이오(京王)전철은 2019년 7월에 노선 주변의 주요 전철역(시모키타자와 역)에 일본어를 포함한 4개국어를 말하는 로봇 역무원 도입에 나섰다.

그 역무원은 2019년 3월부터 배치되었으나, 당초에는 일본어만 가능했다. 로봇은 오므론소셜솔루션즈, 대화 시스템은 페어리디바이시스(Fairydevices)가 개발, 제작 번역 엔진은 NICT의 기술에 기반을 두고 있다.

하네다(羽田)공항과 수도권을 연결하는 게이힌(京浜) 급행 전철은 2018년 7월에 관할 72개역 전역의 태블릿 단말기에 번역용 소프트웨어인 '역 컨시어지(안내원)'를 도입했다. 정형문을 많이 사용해 표현 또한 'LINE'처럼 대화를 상정한 디자인으로 만들어 외국인과의 원활한 소통을 목표로 하고 있다. 지금까지 4개국어였으나, 2019년 8월 이후에는 10개국어까지 대응할 예정이다.

◆ 일본 발(發) 번역 기술의 존재감 

이런 다양한 분야에서의 자동번역 단말기나 서비스를 뒷받침하고 있는 것은 번역 엔진이다. 이것은 반드시 구글 번역만을 가리키는 것이 아니다. 각 제품  및 서비스의 대부분은 제품의 주요 기능인 번역 기능을 높이기 위해 복수의 번역 엔진을 조합해서 사용하고 있다. 

그 중에서 일본 발 번역 엔진도 어느 정도 존재감이 있다. 앞에서 말한 바와 같이, NICT의 'VoiceTra'는 특히 채택되는 사례가 많다. 각 제품이 어느 번역 엔진을 사용하는 지는 알 수 없는 경우가 많지만, 이용이 많은 언어를 '허브'로 사용하는 통역 엔진이 번역 정밀도 및 속도에서 유리하다고 할 수 있다.

실제로 소스넥스트(Sourcenext)는 "일본어와 아시아 언어 간의 번역 엔진에는 NICT의 기술을 사용하고 있다"라고 밝혔다. NICT는 일본어가 허브로, 아시아 6개국 언어와 1대1의 번역을 하고 있기 때문이다.

◆ 초점을 집중시켜 GAFAM에 대항 

일본 발 번역 엔진이 성능 및 편리성, 경제적 비용 면에서 해외의 번역 엔진에게 뒤처지지 않는 것이 상당히 중요하다.

GAFAM 등 IT 거인의 번역엔진에 대한 NICT의 경쟁 전략은 데이터를 넓고 얕게 대량으로 수집할 수 있는 GAFAM와는 달리, '좁고 깊게'라는 전략이라고 할 수 있다. 구체적으로는 ▲직접 번역하는 언어를 일본어를 포함한 주요 10개 언어로 축약한다 ▲개인용으로는 관광 분야를 중심으로 한다 ▲법인용으로는 번역 정밀도의 향상과 비용의 저감을 목적으로 각 분야의 기업으로부터 대역 데이터를 모집하는 '번역 뱅크'를 추진한다 등 3가지이다.

◆ 그러나 보급에는 3가지 커다란 과제도

자동번역 기술과 그 단말기가 급속도로 보급되고 있는 가운데, 앞으로 한층 더 보급되기 위해서는 해결해야 할 커다란 과제가 3가지 있다. (1)대역(對譯) 데이터의 시큐리티의 확보, (2)유저 인터페이스의 향상, (3)번역 정밀도를 한층 더 향상시키는 것과 동시통역으로의 대응 3가지이다.

(1)의 데이터 시큐리티의 확보는 개인용에서는 의료용 등이며 법인용에서는 모든 분야에서 피할 수 없는 과제이다. 이에 대한 대책 없이는 기업은 안심하고 번역 엔진을 이용할 수 없다.

(2)의 유저 인터페이스에서는 현재의 자동번역 단말기의 이용이 일상화될수록 과제가 될 것으로 보인다. 현 시점에서는 번역 앱을 다운로드 한 스마트폰 또는 전용 단말기 이용 시에 단말기에 직접 언어를 녹음해 그 번역을 상대방에게 들려준다. 그 반대의 경우에도 마찬가지로 동일한 수순을 밟을 필요가 있다. 

그러나 사람과의 대화에서 언제나 그것을 이용할 수 있다고는 장담할 수 없다. 서로 작업하면서, 또는 몇 미터 떨어져서 대화할 경우나 3명 이상의 대화에서, 그것도 서로 다른 언어로 대화할 경우에는 현실적으로 어렵다고 할 수 있다.

◆ 기존의 이어폰 타입의 이점은 한정적 

이것을 해결할 가능성이 있는 것이 와이어리스 이어폰 타입의 인터페이스이다. 다만, 이것도 현 시점에서는 해결책이 되지 않는다. 이어폰은 단순한 스피커와 마이크 기능만 있을 뿐, 별도의 스마트폰이 필요하며 스마트폰을 상대에게 내밀어 번역 결과를 들려주는 절차는 전용 단말기의 경우와 다르지 않다. 

자신의 이어폰의 한쪽을 상대방에게 건네어 사용하게 하면 자연스럽게 가까이에서 대화할 수 있지만, 친하지 않은 사람에게 자신의 이어폰을 사용하게 하는 것도 심리적으로 부담이 될 수 있다.

◆  전화와의 융합으로 언어의 벽을 없앤다 

NICT는 이것에 대해서도 해결책인 '이어폰 de 통역'을 제안하고 있다. 지금까지 자동번역 단말기 1대, 또는 그것에 부속되어 있는 이어폰으로 해 왔던 통역 시의 대화를 통화와 같이 상대 측의 단말기와 네트워크를 통해 진행할 뿐만 아니라 이어폰도 이용한다.

모든 대화의 참여자가 이어폰과 스마트폰을 각자 가지고 있어야 하는 것이 전제가 되지만, 3개국 이상의 다언어 간의 대화에서도 각각의 이용자가 모국어로 대화하는 것과 같은 느낌을 얻을 수 있다. 실험에서는 각 단말기의 이용 언어를 사전에 정했으나, 실제 이용에서는 어느 언어를 쓰는 지를 자동으로 인식해 전환하는 기능이 필요해질 전망이다.

◆  번역에서 자연언어 처리 기술의 혁명으로 

나머지 보급을 위한 과제는 (3)의 한층 더 정밀도를 향상시키는 것과 동시통역의 실현이다. 이것에 대해서는 GAFA를 포함한 전세계의 기업과 연구자가 앞다퉈 연구하고 있으며 실현을 향해 만전을 기하고 있는 중이다. 그런 속에 번역을 넘어 선 다양한 언어처리 능력이 범용적 언어계 AI의 등장으로 AI 기술 전체를 새롭게 다시 쓰고 있다. 이런 연구의 최전선에 대해서는 2부에서 소개하도록 하겠다.

# 제 2부: 기술동향
트랜스포머 시대의 도래, 번역기술에서 범용 언어계 AI로

2016년의 신경망 기계번역(NMT)의 실용화는 번역 업계에 충격을 안겨, 포켓토크와 같은 자동번역 단말기의 시장확대로 이어지는 등, 사회에 커다란 임팩트를 안겼다. 그러나 번역기술 및 자연언어처리기술(NLP) 분야에서는 그 후에도 혁명급 돌파구가 잇따라 등장. 번역을 포함한 인공지능(AI)이 기존의 상식을 계속해서 갈아치우면서 상상을 초월한 스피드로 발전하고 있다.

고작 5년 정도의 단기간에 혁명이라고 할 수 있을 정도의 커다란 돌파구가 기계번역 기술에 잇따라 등장했다. 구체적으로는 과거에 단어나 구문 단위로 이뤄졌던 번역이 신경망 기계번역(NMT)의 등장으로 문장을 통째로 번역하게 되었다.

그 다음에 온 것은 문맥을 고려한 문장 단위의 번역이 가능해 진 것이다. 나중에 설명 할 '트랜스포머(Transformer)'로 불리는 새로운 심층 신경망 네트워크(DNN)의 등장으로 실현되었다. 이것이 인간을 뛰어넘는 번역 기술인 것이다.

나아가서는 그 트랜스포머를 바탕으로 번역 등 1개의 태스크(작업)뿐만 아니라, 다양한 태스크를 해 낼 수 있는 범용성이 높은 언어계 AI(인공지능)도 개발되었다. 문장 및 컴퓨터 프로그램을 생성하거나 편집자 대신 문서 요약이나 교정이 가능하다. 그 중에서는 대역 데이터를 필요로 하지 않는 바이링구얼(이중언어) 및 멀티링구얼(다중언어)의 언어계 AI도 있다. 또한 CNN 등 영상계 AI와 융합해 영상, 텍스트, 음성 간을 자유자재로 오갈 수 있는 새로운 AI가 등장하기 시작했다.

◆ 인공 신경망으로 문장 통째로 번역 

여기서부터는 이들 변화를 순서대로 자세히 설명하겠다. 최초의 혁명은 제1부에서 설명한 것처럼 통계 기반 기계번역(SMT)에서 신경망 기계번역(NMT)으로의 변화이다.

NMT도 통계와 확률을 베이스로 하고 있는 것은 SMT와 동일하다. 최대의 차이는 SMT에서는 단어나 구절 별로 번역을 최적화하고 있던 것에 반해, NMT는 1문장을 통째로 부호화한 뒤에 번역하는 언어로 변환한다는 점이다.

그 차이는 문장으로서의 유창함에 있어 크게 영향을 준다. SMT로는 번역 문장이 단어나 구절을 이어 붙인 것이었을 뿐, 사람이 읽으면 부자연스러운 느낌이 적지 않았다. 한편, NMT에서는 번역이 100% 정확하지 않아도 훨씬 더 유창한 번역 문장을 구사할 수 있다. 그것이 가능해진 것은 극도로 복잡한 관수를 표현할 수 있는 DNN을 이용했기 때문이다.

◆ 압축∙추상화 시키는 것이 포인트 

이 DNN은 엔코더(부호화기)와 디코더(해독기) 모델이라고도 불린다. 엔코더는 입력한 문장을 일단 압축 또는 추상화시키는 역할, 디코더는 그것을 번역하는 언어로 복원하거나 생성하는 역할을 하고 있다.

NMT의 경우, 최초에 DNN에 사용된 것은 RNN(순환신경망, Recurrent Neural Network) 이다. 말은 시계열의 변화로 기존의 CNN으로는 잘 다루지 못해, 도중에 출력을 다시 한번 입력 측에 피드백 하는 RNN의 구조가 각광을 받기 시작했다. NMT의 연구 개발에 나선 NTT 커뮤티케이션 과학기초연구소 협창(協創)정보연구부 언어지능연구그룹 리더인 나가타(永田) 씨는 "RNN은 피드백 회로를 갖춘 음향 필터의 회로와 유사하다"라고 말한다. 적어도 초기의 구글번역은 이 RNN 기반의 NMT였다. RNN, 또는 RNN의 개량 버전인 LSTM 기반의 NMT는 등장하고부터 약 3년 정도 주역을 꿰찼다.

◆ 금방 잊어버리는 RNN(순환 신경망) 

그러나 RNN에도 커다란 문제가 몇 가지 있었다. 그 중 하나는 '기억력'이 약해 장문에서는 단어 간의 상관관계를 별로 기억하지 못한다는 점이었다. 문장 끝까지 합성한 경우, 문장 앞의 것은 이미 사라지고 있었다. 그것을 개선한 것이 LSTM이었지만 완전히 해결된 것은 아니었다.

그 기억력을 해결한 것이 RNN의 양방향과 'Attention(주의 기구)'이다. 양방향으로 만들어 단어 별 문장 안의 위치에 따른 유불리(有不利)가 줄어들었다.

◆ 데이터 베이스의 검색과 유사 

이 데이터는 데이터베이스(DB)를 쿼리(Query, 질의)로 검색하는 것에 비유할 수 있다. 쿼리 검색에서는 Q의 벡터와 DB 안의 데이터 벡터의 내적 값이 큰 데이터를 추출한다. 내적 값이 큰 것은 2가지 벡터가 유사하다는 것을 의미하기 때문이다. 당초 NMT에서의 쿼리(Q)는 디코더가 단어를 출력했을 때의 RNN의 내부 상태. DB는 인코더 안의 RNN 내부 상태이다.

당초 NMT는 RNN에 이 Attention(주의 기구)을 도입함으로써 만들어졌다고 말할 수 있다. Attention은 최근 미국 구글이 개발한 문자를 거치지 않고 음성에서 음성으로의 직접 번역기술인 '트랜슬레이토트론(Translatotron)'에도 이용되고 있다.

◆ 위치 정보가 있는 단어로 RNN 시대의 종말 

기억력의 문제와 함께 RNN의 과제는 연산 양이 상당히 크다는 점이다. 또한 처리가 단어열의 순서에 의존하기 때문에 병렬처리가 어렵다는 점이다. 그 결과, 처리 지연도 컸다. 이 가운데 병렬화 과제를 해결한 것이 후발자인 미국 페이스북이 개발한 NMT의 모델 'ConvS2S'이다.

ConvS2S는 CNN기반의 DNN을 이용한다. 입력하는 단어 벡터에 위치정보를 부가함으로써 시계열로 처리할 필요가 없어졌다. 단어의 배열 정보는 RNN의 내부 상태의 기억과는 상관없이 부가된 위치정보가 담보한다. 이로써 RNN을 사용할 필요가 없어진 것이다.

◆ 다음 주역인 차세대 DNN이 등장 

ConvS2S에 이어, 구글과 캐나다 University of Toronto의 연구자가 발표한 'SliceNet'도 위치정보가 들어있는 CNN 기반이었다. 그러나 CNN 시대는 한달 정도 만에 막을 내렸다. 2017년 6월에 구글이 발표한 트랜스포머가 높은 정밀도와 적은 연산으로 선방했기 때문이다.

◆ 다(多)언어 번역에서 멀티모달(Multimodal)로 

대형 트랜스포머는 단락이나 문장 전체를 다룰 수 있으며 문장간의 연결 및 문맥을 파악할 수 있다. 번역 분야에서도 '2019년 8월의 WMT 2019에서는 문서의 문맥을 파악할 수 있는 모델 발표가 잇따랐다"(NTT의 나가타 씨)고 한다.

이런 언어계 AI에 있어서 '제로샷(Zero-Shot) 번역'이라는 방향성이 보이기 시작했다. '제로샷 번역'은 교사(대역 데이터) 없이 하는 학습의 일종이며 A와 B 사이의 번역이 가능하고 B와 C 사이의 번역이 가능하다면, A와 C 사이의 번역 역시 가능하게 만들어준다는 것이다. 이 제로샷 번역은 단순히 언어뿐만 아니라, 언어와 화상을 연결하는 기술로도 이용되기 시작했다. 일종의 멀티모달의 학습법으로서 NTT나 에히메(愛媛)대학에서 이미 모델을 갖추고 있다.

◆ '동시통역,  5년 목표 기한을 정하다' 

제로샷 번역은 '동시통역'의 실현에도 도움이 될 전망이다. 영상 등을 포함한 멀티모달 학습이 회화를 주고받는 것 외에도 그 주변 상황을 읽어내어 단어 이외의 문맥 파악으로 이어지기 때문이다. NICT의 스미타 씨는 "영상의 해석 하나만 보더라도 여러 가지가 있을 수 있다"고 지적. 올바른 번역을 위해서는 언어간의 문화 차이와 같은 보다 높은 차원의 문맥 파악이 필요하다고 한다. 또한 번역 출력의 옳고 그름을 판단하는 자기정정 기능 등도 필요해진다. 

"그래도 우리는 동시통역의 실현을 목표로 하고 있다. 5~10년 안에 기술을 세상에 내놓고 싶다."(스미타 씨)

<해동일본기술정보센터는 김정식 대덕전자 회장의 기부금으로 설립된 비영리 일본 기술정보센터입니다. 후학들이 선진 일본기술을 습득해 기술강국을 만드는데 기여했으면 하는 바람으로 2010년 3월 서울대학교 관악캠퍼스 공과대학 내에 개소했습니다. 다양한 일본 기술 서적과 일본 정부·산업계 백서, 기술보고서 등을 보유, 온·오프라인으로 정보를 제공하고 있습니다. 매주 발행되는 주간브리핑 신청은 hjtic@snu.ac.kr 로 가능합니다.>

저작권자 © 헬로디디 무단전재 및 재배포 금지