[써보니]클릭 몇번에 훈남 'AI 아나운서' 뚝딱… 목소리도 감미로워

KT 'AI 휴먼 스튜디오' 사용기
100가지 넘는 다양한 AI 보이스
자연스러운 음성과 제스처 구현

KT 'AI 휴먼 스튜디오' 시연 장면

KT의 인공지능(AI) 기술을 활용해 딱딱한 텍스트 기사 대신 가상인간이 읽어주는 보이스 영상 뉴스를 제작해봤다. KT의 ‘AI 휴먼 스튜디오’ 서비스를 이용했다. KT가 지난해 11월 출시한 AI 휴먼 스튜디오는 가상인간의 얼굴과 목소리를 선택한 후 원하는 텍스트를 입력하면 간단하게 나만의 동영상 콘텐츠를 제작할 수 있는 웹 서비스다. 생성형 AI 전문 기업 씨앤에이아이와의 기술 협력을 통해 개발됐다.

AI 가상인간은 이미지 생성 기술을 통해 만들어진 캐릭터다. 초상권과 저작권에 대한 제약 없이 자유롭게 콘텐츠 제작에 활용할 수 있다. 또한 강사, 아나운서, 쇼 호스트, 사회자 등 다양한 콘셉트에 맞게 선택할 수 있다. 요금제에 따라 6~12명의 가상인간을 사용할 수 있고, 제작 가능한 영상물 시간과 개수도 늘어난다.

하지만 제작한 영상물에 욕설 등 폭력적 내용을 담거나 음란물과 같이 불법적으로 사용해선 안 된다는 주의 사항이 적혀 있었다. 불법적인 사용이 확인된 경우 추후 서비스 이용에 제재를 받을 수 있다.

내가 제작하고 싶은 뉴스 영상은 KT가 지니TV 이용자를 위해 ‘밀리의 서재’에서 제작한 오리지널 콘텐츠인 ‘오브제북’ 서비스를 선보인다는 내용이었다. AI 휴먼 스튜디오 사이트에 들어가 사용자 가이드를 다운로드받아 사용법을 익힌 후 영상을 제작했다. 가상인간 이름은 신뢰감을 주는 얼굴인 ‘현우’를 선택했고 화면에 상반신만 보이게 했다. 캐주얼 대신 정장을 입혔다. 목소리는 깔끔하고 부드러운 느낌을 주는 ‘미성’을 택했다. AI 목소리는 100가지가 넘고 톤과 감정의 미세한 조정이 가능하다. 목소리를 선택하기 전에 ‘들어보기’ 기능을 사용해 미리 들어볼 수 있어 편리했다.

기사 스크립트를 대본란에 입력하면서 손을 모으거나 안내해주는 손짓 등 다양한 제스처를 넣었다. 영상 내 자막은 물론 가상인간이 텍스트를 읽을 때 0.2초씩 쉬는 구간도 설정할 수 있다는 점에서 디테일이 돋보였다. 1분4초짜리 뉴스 영상 한편이 뚝딱 만들어졌다. 발음에 따라 입 모양이 달라지고 제스처도 자연스러워 생동감이 살아났다.

그러나 영어 발음에서 아쉬운 점이 엿보였다. 지니TV를 ‘지니티브이’가 아닌 ‘지니티브’라고 보이는 대로 발음했다. 또 ‘AI’를 ‘에이아이’라고 정확하게 말하지 않고 ‘에에’라고 하는 듯했다. 이러한 문제를 해결하려면 ‘스마트 단어장’ 기능을 활용해야 한다. 스마트 단어장은 사용자가 단어별로 일일이 발음을 입력해 오류를 막는 것이다. 이 부분에서 약간의 수고가 필요했다.

KT의 ‘AI 보이스 스튜디오’에서는 음성 콘텐츠 제작도 가능했다. 10대 미만부터 60대까지 100여개의 다양한 AI 목소리를 활용할 수 있다. 무료회원 가입 시 월 4000자 분량의 AI 보이스를 제작할 수 있다. AI 보이스 스튜디오 유료 요금제 종류는 라이트(월 1만2000원), 슈퍼(4만8000원), 슈퍼 플러스(12만원) 등이다.

슈퍼 요금제 이상을 쓰면 이용자가 자신의 목소리로 ‘마이 AI 보이스’ 제작이 가능하다. 30문장 정도 분량의 스크립트를 낭독하면 내 목소리를 인식해 어떤 텍스트를 입력하든 내 목소리로 읽어준다. 한국어뿐만 아니라 영어, 일본어, 중국어, 스페인어 등 다국어 서비스를 제공해 기업의 상품이나 서비스를 해외에 알리는 용도로 쓰기에도 적합해 보였다.

산업IT부 김보경 기자 bkly477@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스