27일부터 이미지 인식 기능 제공
일부 지표는 GPT-4o보다 앞서
멀티모달 AI 속도 경쟁에선 밀려
"해변에 앉아 금빛 물결을 바라보네/ 하늘은 붉은빛으로 물들어가고/ 구름 사이로 해가 숨바꼭질을 하네."
네이버 거대언어모델(LLM) '하이퍼클로바X'가 해변의 일몰 사진을 보고 지은 시의 일부다. 하이퍼클로바X가 텍스트를 넘어 이미지 인식 기능을 더한다. 빅테크(거대기술기업)가 일찌감치 자사 AI 모델에 이미지와 음성 인식 기능을 탑재한 상황에서 뒤늦게 멀티모달 경쟁에 뛰어든 것이다. 멀티모달은 글, 이미지, 음성 등 여러 유형의 데이터를 이해하고 생성하는 모델이다.
22일 네이버는 대화형 AI 서비스 '클로바X'에 이미지 보고 답변할 수 있는 '하이퍼클로바X 비전'을 탑재한다고 밝혔다. 일반 이용자들은 오는 27일 업데이트를 통해 이 기능을 사용할 수 있다. 향후 기업 간 거래(B2B) AI 솔루션 플랫폼인 '클로바 스튜디오'를 통해 기업 고객에게도 제공될 예정이다.
하이퍼클로바X 비전은 ▲이미지에 상세 설명을 다는 캡셔닝 ▲사진을 보고 다음 상황을 예상하는 추론 ▲표·그래프 분석 ▲수식이나 도형이 포함된 수학 문제 풀이 등이 가능하다. 사진을 보고 시를 쓰거나 밈(인터넷에서 유행하는 짧은 콘텐츠)을 만드는 등 창의적인 작업도 할 수 있다.
이는 대량의 텍스트와 이미지를 학습시킨 결과다. 특히 한국 문화 관련 데이터를 많이 학습시켜 한국어 문서나 관련 이미지 내 텍스트에 대한 이해도가 높다는 설명이다. 네이버가 이미지 형태로 입력한 대한민국 초·중·고 검정고시 기출 문제를 풀게 한 결과 하이퍼클로바X 비전의 정답률은 83.8%를 기록했다. 검정고시 합격 기준점인 60%를 넘었을 뿐 아니라 오픈AI의 최신 모델인 GPT-4o(77.8%)보다 높은 점수를 냈다. 다만 30여개 지표로 비교한 전체 평가 결과와 평균 점수는 공개하지 않았다.
하이퍼클로바X가 눈을 뜨면서 다양하고 전문화된 업무 처리가 가능할 전망이다. 네이버는 "가깝게는 문서나 이미지의 처리를 자동화할 수 있고 더 나아가 하이퍼클로바X를 두뇌로 사용하는 로봇과 같은 독립적인 에이전트가 목표를 수행하는데도 시각 정보를 활용할 수 있을 것"이라고 말했다.
그러나 빅테크와 비교하면 한발 늦었다는 평가다. 오픈AI는 지난해 9월 이미지 생성 AI '달리3'를 챗GPT에 통합하며 멀티모달 AI를 선보였다. 이를 의식한 듯 구글은 지난해 12월 AI 모델 '제미나이'를 처음 출시할 때부터 멀티모달 모델로 소개했다. 오픈AI의 대항마로 꼽히는 AI 스타트업 앤스로픽 역시 올 3월 '클로드 3'를 통해 첫 멀티모달 모델을 공개했다. 고도화에도 속도를 냈다. GPT-4o는 음성 질문과 촬영 영상에 대해 음성으로 실시간 답변을 내놓는다. 구글은 최근 이 기능을 스마트폰에 탑재했다. 안드로이트폰에서 애플리케이션(앱)과 앱 사이를 오가며 복잡한 명령을 수행할 수 있다.
네이버는 하이퍼클로바X 기반 음성 합성 기술인 '스피치X'를 개발하고 있다. 음성으로 질의응답이 가능한 기능이다. 출시 시기는 정해지지 않았다.
최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>