모든 정보 통합해 학습·추론

생성형AI 전환점 기대

네이버가 텍스트·이미지·음성을 각각 이해하는 수준을 넘어 모든 정보를 한꺼번에 학습하고 추론하는 차세대 인공지능(AI) 기술인 '옴니모달(omni-modal)' 개발을 사실상 마무리해 이르면 이달 말 공개할 예정이다.

네이버가 텍스트·이미지·음성을 각각 이해하는 수준을 넘어 모든 정보를 한꺼번에 학습하고 추론하는 차세대 인공지능(AI) 기술인 '옴니모달(omni-modal)' 개발을 사실상 마무리했다. 이미지나 음성을 단어와 연결하는 '멀티모달(multi-modal)'과 달리 옴니모달은 이해의 속도와 폭을 대폭 향상한 게 특징이다. 이달 말 공개될 경우 생성형 AI의 구조 자체를 바꾸는 전환점이 될 수 있다는 평가가 나온다.

19일 ICT 업계에 따르면 네이버는 자사 AI 플랫폼 '하이퍼클로바X'를 기반으로 한 신규 생성형 AI 모델을 준비 중이다. 텍스트·이미지·음성을 개별적으로 처리하는 방식이 아니라 학습 단계부터 서로 다른 정보를 통합해 이해하는 '옴니 모달리티' 구조가 핵심이다.

국내 AI 업계에서는 이미 멀티모달 기술 경쟁이 본격화된 상태다. NC AI를 비롯한 기업들은 텍스트·음성·이미지·모션 등 다양한 데이터를 결합해 콘텐츠 제작에 활용하는 멀티모달 AI에서 성과를 내고 있다. 여러 모달리티를 각각 정교하게 처리한 뒤 이를 연결하는 방식으로, 실제 서비스에 빠르게 적용할 수 있다는 장점이 있다.

네이버가 강조하는 옴니모달은 이 같은 멀티모달과 지향점이 다르다. 멀티모달이 서로 다른 정보를 '잘 결합하는 기술'이라면 옴니모달은 학습 단계부터 텍스트·이미지·음성·영상을 하나의 인식 체계로 동시에 이해하도록 설계된 구조다. 이를 통해 상황과 맥락, 환경까지 종합적으로 판단할 수 있는 게 특징이다. 따라서 이번 모델은 하이퍼클로바X의 기능 확장에 그치지 않고 정보 처리 방식 자체를 재설계했다는 평가가 나온다.

옴니모달 기술은 이미지·음성·영상 등 다양한 정보를 동시에 이해한다는 점에서 인간의 인지 방식에 더 가깝다. 기존 언어 중심 AI 서비스가 '질문을 얼마나 잘하느냐'에 성능이 좌우됐다면 옴니모달은 질문이 정교하지 않더라도 주변 맥락과 시각·청각 정보를 종합해 의도를 파악할 수 있다.

예를 들어 한국어뿐 아니라 한국의 거리 풍경, K팝 아티스트, 유행 패션 등 다양한 이미지 데이터를 함께 학습시키면 한국 사회와 문화를 깊이 이해하는 AI 모델을 구현할 수 있다. 사용자를 입체적으로 관찰하고 학습하는 만큼 사용할수록 만족도가 높아지는 서비스로 발전할 수 있다.

네이버는 우선 초대형 모델이 아닌 경량화된 규모의 옴니모달 모델을 먼저 선보일 계획이다. 새로운 개발 방법론을 안정적으로 검증한 뒤 첨단 그래픽처리장치(GPU)와 데이터 투입을 통해 단계적으로 모델을 확장하는 전략이다. 신규 모델명은 아직 확정되지 않은 것으로 알려졌다.

이 같은 방향성은 정부가 추진 중인 '독자 AI 파운데이션 모델' 프로젝트에서도 구체화되고 있다. 해당 프로젝트의 주관 사업자로 선정된 5개 기업 가운데 하나인 네이버클라우드는 네이버의 언어·음성 기반 멀티모달 기술에 영상 AI 전문 기업 트웰브랩스의 기술을 결합해 '옴니 파운데이션 모델'을 개발하고 있다.

네이버클라우드 컨소시엄은 옴니 파운데이션 모델을 기반으로 누구나 쉽게 경험할 수 있는 AI 서비스를 제공할 방침이다. 이를 위해 AI 에이전트 마켓플레이스를 통해 개인과 기업이 직접 AI 에이전트를 개발·등록·유통할 수 있도록 지원한다. 소버린 AI 구축 경험을 바탕으로 K-AI 글로벌 수출 모델을 만들고 경량화·추론 특화 모델은 오픈소스로 공개해 활용성을 넓힌다는 전략도 포함됐다.





해외에서는 이미 옴니모달 개념을 앞세운 AI 모델이 등장한 바 있다. 오픈AI는 지난해 내놓은 GPT-4o(Omni)는 텍스트·이미지·음성을 하나의 모델에서 실시간으로 처리하는 생성형AI다. 기존처럼 음성 인식, 이미지 처리, 언어 모델을 따로 거치지 않고 하나의 모델 체계에서 통합적으로 처리하도록 설계된 모델로, 자연스러운 상호작용이 가능하다는 점이 특징이다.





박유진 기자 genie@asiae.co.kr

