ETRI, AI 음향 인식 대회서 세계 1위

전기·전자기술자협회 AASP 주관, 인텔·아마존·IBM·삼성·LG·구글 참가
조지아텍-중국과기대-텐센트-UEK 연합팀 2위
노약자와 청각장애인 '위험 회피 기술' 응용 가능

ETRI 연구진이 인공지능 기반 음향 이벤트 및 장면 인식 기술경진 대회 '음향 장면 인식 분야'에 참가해 1위를 차지했다.<사진= ETRI>

국내 연구진이 인공지능(AI)을 이용해 소리를 듣고 상황을 확인하는 음향 인식 기술력을 겨루는 국제대회에서 1위를 차지했다. 2위는 조지아텍-중국과기대-텐센트-UEK 연합팀에게 돌아갔다.

ETRI(한국전자통신연구원·원장 김명준)는 연구팀이 지난 3일 인공지능 기반 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE)에서 '음향 장면 인식 분야'에 참가해 우수한 성적을 거뒀다고 20일 밝혔다.

연구팀은 '복수 단말 대상 음향 장면 인식' 과제에서 여러 종류의 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 과제에 참가했다. 이 주제는 액션캠과 바이노럴(binaural) 마이크 뿐 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 정확하게 판단하는 분야로 일반화 성능이 관건이다.

예를 들어 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음한 파일이 주어지면 이를 인식하는 시스템을 개발한 뒤 평가에서는 학습에 쓰이지 않았던 액션캠으로 녹음된 지하철 소리를 들려주며 상황을 맞힐 수 있는지 알아보는 방식이다.

연구팀이 개발한 기술은 노약자와 청각 장애인 등을 위한 '위험 회피 기술' 분야에 응용 가능하다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 따뜻한 기술로 활용 가능하다는 의미다. 또 소리를 듣고 정보를 도출하는 미디어 자동 태깅 기술, 자동차, 공장 라인 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링, 로봇 등 다양한 분야로 활용 할 수 있다.

우수한 성적 비결로 연구팀은 ▲소리를 주파수 대역별로 나누어 모델이 각각 학습을 할 수 있도록 만든 '딥러닝 기반 트라이던트(Trident) 구조 신경망 개발' ▲단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 '비균등 입력 특징 분할 기법'을 설계, 적용한 점을 들었다.

또 연구팀은 수행중인 과제와 관련해 '저복잡도 기반 음향 장면 인식', '음향 발생 방향 및 이벤트 인식' 분야에도 참가, 좋은 성적을 거뒀다. 입상한 팀은 추가 성능 분석 결과를 포함해 학회 논문 제출과 발표를 진행할 예정이다.

이번 대회는 ETRI 미디어부호화연구실의 서상원 연구원, 박수영 연구원, 정영호 책임연구원이 공동으로 참여했다. 과제는 과학기술정보통신부 '신체기능의 이상이나 저하를 극복하기 위한 휴먼 청각 및 근력 증강 원천 기술 개발' 과제 일환으로 진행됐다. 관련 국내외 특허는 2017년부터 17건, 기술 논문 11건이다.

김흥묵 미디어연구본부장은 "AI가 시각, 언어 인식 등 분야에서는 인간을 상회하는 수준으로 연구가 이뤄진 것에 비해, 청각 분야에서는 아직 갈 길이 먼 상황에서 '전자 귀'처럼 모든 음향을 인식할 수 있는 수준으로 개발 중"이라면서 "딥러닝 기반 음향 인식 기술은 향후 새로운 응용 서비스 기술 개발을 통해 국내 관련 산업의 경쟁력 확보와 시장 활성화에 크게 기여할 것"이라고 말했다.

한편 올해로 6회째를 맞는 이 대회는 전기·전자기술자협회(IEEE) AASP(Audio and Acoustic Signal Processing)가 주관하고 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수 기관이 참가하는 음향 기술 관련 유일한 대회다. 대회는 6개 분야에 총 138개 팀과 473개의 제안 시스템이 제출돼 지난 3월부터 6월 중순까지 과제별 기술 경쟁이 이뤄졌다.

길애경 기자 kilpaper@HelloDD.com

길애경 기자의 다른기사 보기

상단영역

본문영역