[인터뷰]박상규 센터장 "모두 안된다고 했다…그런데 해냈다"
한-영 통역 앱 관심폭발…서비스 이틀만에 데이터 수백만건

"기획할 때부터 반대가 심했어요. 같이 연구하는 연구원조차 힘들 것 같다고 했습니다. 관련 업계 종사자 가운데 대부격인 분까지 나서서 안된다고 하더라구요.

그런데 저희 데모를 보고나서 인정하기 시작했습니다. 다들 부정적으로 봤죠. 그래도 해냈잖아요. 기업 연구소가 아니라 정부출연연구기관이라 가능했다고 봅니다." ETRI(한국전자통신연구원·원장 김흥남)가 순수 독자기술로 개발한 한-영 자동통역 앱 '지니톡'의 열풍이 뜨겁다.

무료 시범서비스를 시작한 지 이틀만에 수 백만 건에 달하는 데이터가 ETRI 서버에 쌓였다. 돈보다 데이터를 더 큰 재산으로 여기는 ETRI 연구진으로서는 기쁜 일이 아닐 수 없다. 박상규 자동통역지식처리연구센터장은 이같은 상황이 얼떨떨하기만 했다.

이같이 폭발적인 반응이 올 거라고는 생각지 못했다는 그는 "무료로 발표한 것이 먹혀들어간 것 같다"며 "무료로 발표한 이유가 사용자 데이터를 모으기 위해서였다. 통역, 음성, 번역 등과 같은 연구는 데이터가 제일 중요하다.

돈 들여서 데이터 모으는 것도 한계가 있다"고 말했다. 많은 이들이 사용하면 할수록 기술은 업그레이드 된다는 뜻이다. 지니톡을 실행시키고 '안녕하세요'라는 기초적인 문장을 자기 목소리로 발음하기만 해도 그 데이터가 고스란히 쌓여 기술 업그레이드에 적용된다. 음성, 통역, 번역 등은 목소리, 말투, 문장, 단어 등 적용돼야 할 부분이 서로 퍼즐처럼 짜맞춰져야 검색이 가능하다.

또한 남성과 여성 뿐만 아니라 외국인이 발음하는 음성과 말투 등도 구분해야 한다. 이렇게 따졌을 때 필요한 데이터 양은 엄청날 수 밖에 없다. '지니톡'에 적용된 자동통역 기술은 세계 최고 수준으로 한국어와 영어 간 의사소통에 큰 무리가 없을 정도의 높은 완성도를 확보한 것으로 평가되고 있다.

이미 지난 1월 제주 지역 내에서 진행된 시범서비스가 성공적으로 마무리됐으며, '2012 여수세계박람회'에도 적용해 완성도를 높였다. 이번에 지원하는 음성인식 한국어의 경우 무려 27만 단어급이며, 영어는 약 6만5000 단어를 지원한다.

실제 여행 상황을 가정할 경우 자동통역률은 80%를 상회하는 수준으로, 현재 세계 최고 수준으로 인정받고 있는 구글의 한-영 자동통역 기술 대비 15%이상의 경쟁 우위를 보인다. 음성인식 기술은 그 기술의 난이도에 따라 '고립 단어 인식'과 '연속 음성 인식'으로 크게 나뉜다.

예를 들어 인식 대상 어휘가 '서울', '부산' 두 개라고 가정했을 때, 전자는 서울과 부산 딱 두 개 어휘만 인식하는 기술이고, 후자는 이 두 개 어휘의 모든 조합 즉 '서울 서울', '서울 부산 서울'과 같이 어떠한 길이의 어휘 조합도 모두 인식하는 기술이다.

당연히 후자가 더 어려운 기술이다. 그리고 사람과 같은 수준의 음성 인식기를 개발하고자 한다면, 후자의 기술이 사용돼야 한다. 데이터의 누적량이 중요한 이유다.구글이 엉성하기 그지없는 프로그램을 미리 내놓는 이유도 바로 데이터 누적을 위해서다.

박 센터장은 "구글이 엉성한 프로그램인데도 미리 내놓는 것은 데이터를 받기 위해서다"라며 "개발자 입장에서는 큰 차이다. 그렇게 몇 년 지나면 접근이 불가능해 질 정도로 기술 장벽이 높아진다. 도저히 따라갈 수 없다. 많은 분들의 호응이 그래서 중요하다"고 설명했다.

◆ "외국 기술에 종속되면 안돼, 선점하려면 먼저 치고 나가야"
 

"스마트폰을 생각해보면 쉽죠. 운영체계가 없어서 플랫폼 생태계가 꼼짝 못하고 끌려 다니잖아요. 음성처리 부분도 마찬가지입니다. 이것 역시 외국 기술에 종속되면 운영체계 플랫폼에 끌려다니는 것 이상으로 아마 뒤쳐질겁니다.

애플 아이폰 기술인 '시리'가 무서운 이유도 그것입니다. 몇 년 사용하면 아마 우리가 진입할 수 없을 정도로 기술 수준이 올라갈 겁니다." 통역기 부분에서 만큼은 외국 기술에 잠식당하면 안된다는 그의 주장에는 우리나라 기술 생태계 상황에 대한 안타까움이 깔려있다.

특히 언어와 관련된 기술은 운영체계 종속 이상의 영향을 줄 수 있다. 언어는 한 국가를 대변하고, 그 나라 사람들의 가치관을 반영한다. 자국 언어를 갖고 있는 것 자체가 자부심으로 연결된다. 박 센터장은 "언어의 종속은 사고적인 면까지 종속 받을 수 있는 위험이 있다.

적어도 음성언어 처리는 우리가 빨리 치고 나가야 할 필요가 있다"며 "영어를 잘해서 미국 시장에서 돈을 벌고 하는 개념보다 우선돼야 할 것은 한국어 방면에서 종속당하지 않도록 방어해야 한다는 것이다. 그런 면에서 이번 출발은 좋다고 볼 수 있다"고 설명했다.

사실 ETRI 연구팀에게는 노력과 더불어 운도 있었다. 통역기 개발을 시작할 당시는 스마트폰은 나오지도 않았을 때였다. 때문에 통역기를 만들려면 당연히 전용 기계가 필요했다. 일본 역시 계속 전용기로 시장의 반응을 보고 있던 참이었다.

ETRI 연구진 역시 전용기계의 필요성에 대해 심각하게 생각했던 터였다. 그때 터졌던 것이 모바일 빅뱅이었다. 2009년부터 스마트폰이 급속도로 전파되기 시작했다. 박 센터장은 "통역기의 경우 총 6개의 컴포넌트가 들어가야 해서 스마트폰에 들어가기가 힘들었다.

그러나 통신으로 연결할 경우는 달랐다"며 "통역기의 컴포넌트는 ETRI 서버에 연결하고, 스마트폰에는 인터페이스만 연결해 통신으로 쓸 수 있도록 작업했다. 스마트폰이 전용기계에 대한 고민을 해결해준 셈이다"고 말했다.

◆ "제일 중요한 것은 산업 생태계 육성, 시장 키우겠다"

이번 ETRI의 통역기 개발은 산업 생태계 육성에도 큰 역할을 할 수 있을 것으로 기대되고 있다. 박 센터장은 "지니톡은 여행과 관광 쪽으로 특화된 통역기다. 사실 모든 영역에서 통역기가 사용되면 좋겠지만, 그렇게 할 경우 성능이 확 떨어진다.

그래서 지니톡은 여행과 관광 쪽으로 특화시켜 만들었다"며 "다양한 분야에서 이용이 가능하다. 지니톡을 바탕으로 비즈니스 회의용, 병원용, 학교용 등 다양한 통역기를 만들 수 있다"고 설명했다. 통역기 하나로 시장이 형성될 수 있다는 이야기다.

그는 "우리 기술을 받아 사업을 진행하려는 기업들이 지역별로 있다. 이 기술을 더 특화시켜서 유료로 전환시켜야 한다"며 "그렇게 하면 시장을 자연스럽게 키워나갈 수 있다. 제일 중요한 것은 생태계를 키우는 것이다. 무료는 시장을 죽일 수 있다"고 경고했다.

ETRI가 무료로 배포하는 바람에 돈 버는 사람들이 없어져버리면 기업이 다 죽을 수 밖에 없다는 소리다. 또한 이 분야를 연구하는 사람들도 자연스럽게 없어질 것이고, 관련 연구의 필요성 역시 약화될 수 밖에 없다. 박 센터장은 "무료로 배포할 때 이 부분을 가장 고민했다.

그러나 ETRI의 경우에는 무료로 배포를 해서 데이터를 축적하는 게 좋다는 생각이 들었다"며 "성능을 높여서 기술을 기업에 이전하고, 그 기술을 기반으로 해 특화시켜 나가야 한다. 기술은 튼튼하게, 비즈니스는 그 뿌리를 깊게하는 데 노력해야 한다"고 강조했다. 이어 그는 "현재 정부와 ETRI는가 국내 산업체와 협력해 2018년에 열리는 평창 동계올림픽에 한국어와 중국어, 영어, 일어, 스페인어, 불어, 독일어, 러시아어 등 총 8개국 자동통역 서비스를 제공하는 준비에 착수한 상태다"라며 "이를 위해 올해 초부터 ETRI 내 자동통역지식처리연구센터를 설립해 운영 중에 있으며, 평창 동계올림픽 기간 중 우리말과 다국어간 완벽한 통역지원 서비스 제공으로 IT코리아로서의 국격을 제고시킬 것"이라고 계획을 밝혔다.

저작권자 © 헬로디디 무단전재 및 재배포 금지