MS 'AI 음성인식, 사람 따라잡았다'

단어오류율(WER) 5.9% 기록… 인간과 동등한 수준MS연구팀, "20년 넘게 음성인식 연구한 결과물"MS의 AI 코타나에 적용돼 다양한 용도로 활용될 전망

MS의 음성인식 연구팀(출처=MS 공식 블로그)

[아시아경제 이민우 기자] 마이크로소프트(MS)의 인공지능(AI)이 음성 인식 부문에서 사람을 따라잡았다.18일(현지시간) 정보기술(IT) 전문매체 엔가젯은 MS의 공식 블로그를 인용해 이 같은 내용을 전했다. MS의 AI 연구팀이 최근 발표한 논문에 따르면, MS의 AI 음성인식 시스템은 대화를 인식하는 데에 있어 전문 구술기록가(transcriptionist)의 수준을 따라잡았다. MS의 AI는 단어오류율(WER·Word Error Rate) 5.9%를 기록했다. WER 5.9%는 인간이 대화를 듣고 기록할 때와 동등한 수준이며, MS는 지난달WER 6.3%를 기록했다고 밝힌 바 있다. 현재 다른 기업들의 음성인식 시스템은 평균적으로 WER 10% 수준인 것으로 알려졌다. 이 시스템은 MS 자체의 딥러닝 컴퓨테이셔널 네트워크 툴킷(deep learning Computational Network Toolkit)으로 개발된 자체 알고리즘으로 작동된다. 쉐동 황(Xuedong Huang) MS 음성인식 수석 연구원은 "우리는 드디어 인간의 수준의 음성 인식을 구현했다"며 "역사적인 성과"라고 말했다. MS는 지난 1970년대부터 미국 국방고등연구기획청(DARPA)와 함께 음성인식 기술을 연구했다. 제프리 츠바이그(Geoffrey Zweig) 음성 및 대화 연구팀장은 "이 같은 성과는 20년이 넘는 연구의 결실"이라고 설명했다.이 같은 음성인식 기술은 다양한 분야에서 활용될 전망이다. 특히 콘솔게임기 엑스박스부터 PC까지 MS의 AI '코타나(Cortana)'가 탑재된 대부분의 시스템에서 유용하게 쓰일 것으로 보인다. 다만 음성 인식이 아직 완벽한 것은 아니다. 예를 들어 'a'를 'the'로 알아듣는 등의 오류가 발생했다. 하지만 이 같은 오류는 사람들도 종종 범하는 수준의 실수다. 또한 고속도로나 파티 등 소음이 심한 공간에서 말하는 목소리를 알아듣는 능력 등의 과제가 남아있다. MS 연구팀은 이 같은 부분들을 개선하며 보다 실제 생활에서 유용하게 쓸 수 있도록 시스템을 개선할 계획이다. 이민우 기자 letzwin@asiae.co.kr<ⓒ세계를 보는 창 경제를 보는 눈, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

산업2부 이민우 기자 letzwin@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스