텍스트, 음성, 이미지 동시에 이해·처리
모델 병합 기술로 단기간 효율적 개발
글로벌 모델과 견주어도 경쟁력
카카오가 공식 테크블로그를 통해 통합 멀티모달 언어모델 '카나나-o'와 오디오 언어모델 '카나나-a'의 성능과 개발 후기를 1일 공개했다.
통합 멀티모달 언어모델인 '카나나-o'는 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다.
카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 '카나나-v'와 오디오 이해 및 생성에 특화된 '카나나-a' 모델을 통합, 단기간 내 효율적으로 '카나나-o'를 개발했다.
카나나-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다.
스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, 카나나-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다.
카나나-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다.
카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.
지금 뜨는 뉴스
카카오는 지난해 자체 개발 AI 모델 '카나나'의 라인업을 공개했으며, 공식테크 블로그를 통해 언어모델, 멀티모달 언어모델, 비주얼 생성모델 등의 성능과 개발기를 공개해왔다.
심나영 기자 sny@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>