이재성 트웰브랩스 창업자 인터뷰
영상 검색·요약 특화 모델 '마렝고'·'페가수스' 개발
고객사 90% 이상이 북미 지역
AWS 베드록서 고객 수 늘려
"유럽 시장 문 두드릴 것"
"향후 4~5년 이내에 전 세계 영상 데이터의 80% 이상을 우리 모델인 '마렝고'로 인덱싱하는 것이 목표입니다. AI 에이전트들이 영상을 활용할 때 반드시 거치는 '영상 인텔리전스 레이어'로 자리 잡을 것입니다."
1일(현지시간) 미국 라스베이거스에서 진행 중인 아마존웹서비스(AWS)의 리인벤트(re:Invent) 행사 현장에서 만난 이재성 트웰브랩스 대표는 기업의 목표에 대해 이렇게 소개했다. 인공지능(AI)으로 영상을 다룰 때 꼭 필요한 모델을 만들겠다는 포부다. 트웰브랩스는 내년 1분기 중 비디오 분야의 AI 에이전트 서비스를 출시할 예정이다.
2021년 이 대표가 창업한 트웰브랩스는 멀티모달 AI 기술력을 바탕으로 비디오 파운데이션 모델(VFM)을 개발하고 있다. 현재 영상 내 텍스트나 이미지, 오디오 정보를 분석(인덱싱)해 특정 장면의 검색을 돕는 '마렝고'와 영상을 분석해 요약문을 생성하거나 영상 내용에 대한 질의응답을 수행하는 '페가수스' 등 AI 모델을 제공하고 있다. 창업 이후 유치한 누적 투자 규모는 약 1억700만달러(약 1500억원)에 달한다. 엔비디아와 인텔 등 글로벌 빅테크(대형 정보기술 기업)들과 네이버, SK텔레콤 등 국내 유수 기업들도 트웰브랩스에 투자했다.
트웰브랩스는 단순 검색과 인덱싱을 넘어 AI가 스스로 영상을 분석하고 편집까지 해내는 '비디오 에이전트'를 내년 1분기 출시하기 위해 준비 중이다. '이번 시즌 손흥민 선수의 주요 활약상을 모은 하이라이트 영상을 만들어 줘'라고 에이전트에게 요청하면 주요 골 영상을 AI 에이전트가 검색한 뒤 영상 편집과 생성까지 스스로 수행하는 식이다.
트웰브랩스의 모델이 기존 빅테크들의 영상 이해 모델들과 다른 점은 영상 그대로를 이해한다는 점이다. 기존 모델들은 영상을 프레임(영상의 최소 단위)마다 정지 이미지로 바꾼 뒤 이를 텍스트로 학습하는 탓에 영상의 맥락까지는 이해할 수 없다. 예를 들어 '해 지는 노을녘'을 촬영한 영상을 기존 모델에 학습시키면 일출과 일몰을 구분할 수 없다. 이 대표는 "기존 방식은 시간과 공간의 맥락을 잃어버리지만, 마렝고는 영상 자체를 통으로 학습하는 네이티브 모델"이라며 "시간의 흐름과 인과관계를 정확히 파악한다"고 강조했다.
트웰브랩스는 이날 최신 모델인 '마렝고 3.0'을 공식 출시했다. 이번 모델은 트웰브랩스가 지금까지 선보인 모델 중 가장 강력한 기능을 갖췄다는 설명이다. 영상을 단순하게 보는 데서 벗어나 영상 속 장면의 텍스트와 음성, 움직임과 같은 상황 맥락을 통합적으로 이해할 수 있다. 영상의 상황과 등장인물의 움직임, 날씨 등의 정보를 모델이 종합적으로 이해해 검색이 쉽도록 미리 정리해두는 역할을 한다.
마랭고 3.0은 이전 모델에 비해 영상 인덱싱 속도도 2배가량 빨라졌고, 영상 스토리지를 위한 비용도 절반으로 줄였다. 이 대표는 마렝고 3.0에 대해 "기존 모델과 비교해 특별히 스포츠에 능력을 더했다"면서 "선수들의 특정 움직임이나 스포츠 용어도 이해할 수 있어 하이라이트 영상을 만드는 데 유용하게 쓸 수 있을 것"이라고 강조했다.
마렝고, AWS의 생성형 AI 플랫폼인'아마존 베드록' 통해 성장
마렝고는 AWS의 생성형 AI 플랫폼인 '아마존 베드록'을 통해 급격한 성장세를 이룰 수 있었다. 베드록은 생성형 AI 서비스나 에이전트 구축을 돕는 서비스로, 다양한 AI 모델을 한 곳에서 활용할 수 있다. 이 대표는 "지난 7월 말 베드록에 마렝고를 올린 뒤 5개월이 지났는데, 약 3만곳의 고객사를 확보했다"면서 "대부분의 고객사들이 베드록을 통해 마렝고를 활용하는 AWS의 기업 고객사"라고 소개했다.
고객사의 산업군도 폭넓다. 트웰브랩스에 따르면 현재 전체 매출의 90% 이상이 북미 시장에서 발생하고 있다. 산업군 역시 영상 콘텐츠를 다루는 스포츠, 엔터테인먼트 업종에 더해 정부와 보안 등 다양한 산업군의 고객사를 확보했다. 국내에서도 세종시가 트웰브랩스 모델을 CCTV 분석에 활용하고 있다.
글로벌 진출에도 속도를 내고 있다. 주요 무대인 미국과 우리나라를 넘어 유럽 시장 진출을 노리고 있다. 잉글랜드 프리미어리그(EPL)이나 포뮬러 원(F1)과 같은 주요 스포츠 무대들이 유럽에 포진해 있어 수요가 충분하다는 판단에서다. 이미 영국 지사의 설립을 마쳤고, 현지에서 근무할 인력을 채용하고 있다.
지금 뜨는 뉴스
영상 그 자체를 이해할 수 있는 AI 모델을 통해 방대한 양의 영상을 다루는 기업 고객들의 수요를 잡겠다는 게 이 대표의 포부다. 그는 "전 세계 데이터의 90%는 영상으로 돼 있지만, 검색이 거의 불가하다"면서 "기업들이 보유한 방대한 영상 자산을 빠르게 인덱싱하고 검색해 새로운 가치를 창출하도록 돕는 것이 우리의 목표"라고 강조했다.
라스베이거스(미국)=이명환 기자 lifehwan@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
![[AWS리인벤트]"전 세계 영상 80%, 우리 모델로 인덱싱할 것…내년 비디오 에이전트 출시"](https://cphoto.asiae.co.kr/listimglink/1/2025120205403038980_1764621630.jpg)
![[AWS리인벤트]"전 세계 영상 80%, 우리 모델로 인덱싱할 것…내년 비디오 에이전트 출시"](https://cphoto.asiae.co.kr/listimglink/1/2025120205423338981_1764621753.jpg)

