'풀어야 큰다'…구글, 대화용 AI 데이터셋 무료 공개

영화취향 관련 대화 데이터 1만여개 공개
식당·영화 등 예약 관련 데이터도 무료로 풀어

[아시아경제 이민우 기자] 구글이 인공지능(AI) 학습을 위해 수만개의 데이터를 무료로 공개했다. 이를 통해 보다 사람과 비슷한 수준으로 자연스럽게 말하는 AI를 구현한다는 전략이다.

6일(현지시간) 벤처비트, 더버지 등 정보기술 전문매체 등은 구글이 이 같은 대화 데이터 묶음 'CCPE'와 '태스크마스터-1'을 무료로 공개했다고 전했다.

구글의 연구자들은 CCPE를 새로운 음성 대화 수집 방법이라고 설명했다. CCPE에는 500가지의 대화가 데이터화(化) 됐다. 여기에는 사람들이 1만2000번의 발언을 주고 받으며 영화 취향에 대한 의견을 나눴다. 배우와 감독 이름 등과 같은 메타데이터의 가치 때문에 영화 취향이 주제로 꼽혔다. 구글 측은 "우리는 세부적인 대본을 미리 제시하거나 일정 수준의 배경 지식을 갖춘 이용자들의 대화만을 취급하지 않았다"며 "때문에 기존 데이터묶음에 비해 더 현실적이고 다양한 대화를 담을 수 있었다"고 설명했다.

'태스크마스터-1' 데이터묶음은 1만3000개 이상의 대화로 구성됐다. 피자주문, 자동차수리 예약, 영화 예매, 커피 주문, 식당 예약 등 6가지로 분류해 상황에 맞는 대화 내용을 AI가 학습할수 있도록 데이터화한 것이다. 구글이 AI 관련 기술과 데이터를 무료로 공개한 것은 이번이 처음이 아니다. 일찌감치 머신러닝 개발 툴 '텐서플로우'를 무료로 공개하며 AI업계에 큰 전환점을 제시했다는 평을 받았다.

국내에서도 LG CNS가 최근 다량의 AI학습용 데이터를 공개했다. 위키백과 정보를 기반으로 만든 AI 학습용 한국어 표준데이터 묶음 '코쿼드 2.0'이다. 한국어 표준데이터 10만개 가량이 담겨 AI가 장문의 답변을 하는 데 활용될 전망이다. 예를 들어'서울특별시의 특징은?'과 같은 질문에도 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 곳'이라는 답변도 가능해지는 식이다.

기업들이 AI 데이터를 이처럼 공개적으로 배포하는 이유는 유료로 판매하거나 비공개로 내부에서 활용하는 것보다 더욱 이득이 되기 때문이다. 업계 관계자는 "집단지성을 활용해 다양한 피드백을 받고 자연스레 우수한 인재를 영입하기도 보다 수월해지기 때문"이라고 설명했다.

이민우 기자 letzwin@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

4차산업부 이민우 기자 letzwin@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스