'액팅 TTS' 개발한 신현진 허드슨AI 대표
기존 성우 더빙보다 비용 90% 줄고
작업 시간도 획기적으로 절감
더빙은 콘텐츠의 세계 진출에 있어 필수적인 요소다. 다양한 언어로 시청자와 소통할 수 있는 수단이기 때문이다. 하지만 그에 따른 비용과 인력 소모는 만만치 않다. 시리즈 하나를 더빙하기 위해서는 성우와 사운드 엔지니어 등 50~60명이 투입되고, 수주에 걸친 작업 기간도 필요하다. 글로벌 온라인동영상 서비스(OTT)들조차 부담을 느낄 정도다.
이러한 고비용 구조에 변화의 바람이 불고 있다. 최근 몇몇 기업이 인공지능(AI)을 활용해 더빙의 새로운 길을 열고 있다. 중심에는 '액팅 TTS(Text to Speech)' 기술을 선보인 허드슨AI가 있다.
신현진 허드슨AI 대표는 아시아경제와의 인터뷰에서 "액팅 기술은 등장인물이 많아도 배우 고유의 목소리 특성과 말투, 높낮이 등을 다양한 언어로 정교하게 재현해낸다"며 "기존 성우 더빙보다 비용은 90% 이상 낮출 수 있고, 작업 시간도 획기적으로 줄일 수 있다"고 말했다.
물론 AI가 아직 완벽한 수준은 아니다. 특히 복합적인 감정이 담긴 대사를 자연스럽게 표현하는 데 어려움을 겪는다. 이를 해결하기 위해 신 대표는 '가이드 녹음' 방식을 도입했다. 그는 "성우가 감정을 담아 외국어로 연기하면, AI가 이를 학습해 흉내낸다"며 "음성뿐 아니라 자동으로 추출한 대본을 기반으로 영상 속 배우의 입 모양까지 일치시키는 기능을 제공한다"고 설명했다.
AI 더빙은 시간 절감에서도 압도적인 성과를 보인다. 신 대표는 "90분짜리 영화를 성우가 녹음하려면 최소 4주가 걸리지만, AI는 3일이면 완료한다"며 "사전 작업과 검수를 포함해도 2주면 충분하다"고 피력했다.
허드슨AI는 '보이스 컨버전(Voice Conversion) 시스템'도 보유하고 있다. 한 사람이 녹음한 음성을 다른 사람의 목소리로 변환하는 기술로, 최근 유튜브에서 인기를 끌고 있는 AI 커버곡과 같은 원리다.
정교한 기술은 이미 상용화 단계에 접어들었다. 영화 '정직한 후보 2', '폴 600미터', 어린이 애니메이션 '헬로 카봇' 등의 영어 더빙 버전이 SK브로드밴드를 통해 서비스됐다. SK브로드밴드 관계자는 "시청자들이 일반 더빙과 AI 더빙의 차이를 크게 느끼지 못했다"며 "완성도가 높아 앞으로 제작 시간과 인력을 더욱 줄일 수 있을 것"이라고 전했다.
신 대표는 "감정 표현의 폭을 넓히고, 워크플로를 최적화해 사람이 조정하는 수준에 근접한 더빙 품질을 구현해가고 있다"며 "AI 기술이 더 발전하면 영화 '그녀(2013)'처럼 감정적 대화를 나누는 인터랙티브 서비스도 가능해질 것"이라고 밝혔다.
정부 역시 AI 더빙 거친 K콘텐츠의 글로벌 진출 촉진을 기대하고 있다. 세계화의 열쇠로 보고 최근 'AI 더빙 특화 K-FAST 확산 지원' 사업까지 진행하고 있다.
미디어 업계의 반응도 긍정적이다. 한 관계자는 "오래전부터 자막보다 더빙을 선호해온 유럽과 중남미 시장을 꾸준히 공략할 수 있을 것"이라고 전망했다. 또 다른 관계자는 "미디어 기업들이 이번 사업을 통해 해외에서 수익을 창출한다면, AI 더빙 시스템도 자연스럽게 안정적으로 자리 잡게 될 것"이라고 했다.
지금 뜨는 뉴스
신 대표는 "콘텐츠 세계화의 핵심은 현지화에 있다"며 "넷플릭스처럼 대규모 투자가 어렵다면, AI 더빙 같은 합리적인 기술로 이를 실현해야 한다"고 강조했다.
이종길 기자 leemean@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>