최유리기자
데이터 부족 현상이 발생할 수 있다는 전망이 나오면서 글로벌 IT 기업들의 데이터 확보 경쟁이 치열해지고 있다. 양질의 데이터를 가급적 빠른 시일 내에 대량으로 확보하는 게 인공지능(AI) 경쟁력으로 직결되기 때문이다. 사람이 더 많은 책을 읽을수록 지식이 고도화되듯 AI는 더 많은 데이터를 학습할수록 더 똑똑해진다.
26일 IT 업계에 따르면 오픈AI는 최근 소셜미디어 레딧과 콘텐츠 학습 계약을 맺었다. 레딧 이용자 12억명이 게시하는 각종 데이터를 학습하기 위해서다. 파이낸셜타임스(FT), 월스트리트저널(WSJ) 등 언론사와도 콘텐츠 사용 계약을 체결했다.
지난 4월 계정 가입이나 로그인 없이 챗GPT를 이용할 수 있게 한 것도 데이터를 확보하기 위한 시도다. 서비스 문턱을 낮추면 더 많은 사용자와 데이터를 얻을 수 있기 때문이다.
최근에는 차세대 모델인 GPT-5 학습을 위해 구글과 유튜브 동영상 녹취본 활용 가능성을 논의한 것으로 알려졌다. 경쟁사인 구글까지 정보 공급처로 검토할 만큼 오픈AI는 다양한 방법으로 데이터를 확보하고 있다.
애플은 AI 학습용 데이터 확보에 1억달러(약 1300억원)를 투자하기로 했다. 우선 글로벌 이미지·영상 콘텐츠 업체 셔터스톡에 5000만달러(약 670억원)를 주고 데이터를 구매할 계획이다. 이와 함께 잡지사 보그, 뉴요커, NBC 뉴스, 피플지 등을 소유한 IAC그룹 등과 콘텐츠 이용 협상을 진행 중이다. 수년 간의 기사 등을 이용하는 대가로 최소 5000만달러를 제안한 것으로 전해진다.
국내에서도 기업들이 데이터를 십시일반 모으는 작업에 나섰다. AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA), 롯데쇼핑 등 기관·기업 20여 곳과 손잡고 '1T(1조 토큰) 클럽'을 만들었다. 토큰은 AI가 학습할 수 있는 문장의 최소 단위다. 협업 파트너가 한국어 데이터 1억 토큰 이상을 제공하면 업스테이지는 이들에게 자체 거대언어모델(LLM)을 할인된 가격으로 제공하거나 관련 수익을 공유한다.
기업들은 학습용 데이터를 직접 만들기도 한다. '데이터 증강'이나 '데이터 합성' 등을 이용한다. 기존 데이터를 변형하거나 합성해 데이터를 다양하게 만드는 것이다. 또 AI가 생성한 학습용 데이터를 활용하기도 하고 적은 데이터로 AI를 효율적으로 학습시킬 수 있게 AI 모델 구조를 바꾸기도 한다.