김종화기자
인공지능(AI)은 늘 더 똑똑해질 것처럼 보였다. 해마다 새로운 모델이 등장했고, 답변은 더 자연스러워졌으며, 인간의 영역을 빠르게 따라잡았다. 우리는 어느새 AI의 발전을 당연한 전제로 받아들이고 있다.
하지만 최근 AI 업계와 연구 현장에서는 조금 다른 질문이 나오기 시작했다. 만약 인공지능이 더 이상 배울 것이 없다면, 그다음은 어떻게 될까. AI의 발전은 정말 끝없이 이어질 수 있을까.
이 질문의 출발점은 '학습 데이터'다. 인공지능은 스스로 세상을 경험하지 않는다. 인간이 남긴 기록, 즉 텍스트와 이미지, 영상과 음성 데이터를 통해 세상을 배운다. AI의 지능은 연산 능력만으로 만들어지는 것이 아니라, 무엇을 얼마나 다양하고 질 높은 데이터를 학습했는지에 따라 크게 좌우된다. 그런데 이 학습의 재료가 점점 한계에 다다르고 있다는 경고가 잇따르고 있다.
지금까지 대규모 언어모델(LLM)은 인터넷에 공개된 방대한 데이터를 기반으로 성장해왔다. 웹 문서와 뉴스 기사, 책과 논문은 AI의 교과서였다. 그러나 공개적으로 접근 가능한 고품질 데이터는 이미 상당 부분 수집된 상태다.
글로벌 AI 연구기관인 '에포크(Epoch)'는 최근 보고서를 통해 인간이 생성한 고품질 텍스트 데이터 자산이 이르면 2026년에서 2030년 사이에 완전히 바닥을 드러낼 것이라고 경고했다. 남아 있는 데이터는 저작권 문제로 접근이 엄격히 제한되거나, 막대한 비용을 지불해야 하는 유료 데이터인 경우가 많다.
이로 인해 AI 기업들이 이전과 같은 방식으로 '무단 대량 수집'을 통해 학습하기는 사실상 불가능해졌다. 데이터 확보가 기술 경쟁을 넘어 막대한 자본과 법적 공방의 영역으로 넘어간 것이다. 실제로 뉴욕타임스(NYT)와 같은 주요 언론사들과 작가들이 오픈AI 등을 상대로 제기한 저작권 소송은 AI 업계가 직면한 '데이터 장벽'을 상징적으로 보여준다.
이성엽 고려대학교 지식재산전략학과 교수는 "대형 언어모델은 이미 웹상의 공개 데이터를 대부분 훑었다고 봐야 한다"며 "단순히 데이터의 양(Quantity)을 늘리는 방식은 이제 중복되거나 재가공된 저품질 텍스트가 섞여 들어오기 때문에, 지능 향상에 기여하는 한계효용이 급격히 감소하는 단계에 진입했다"고 진단했다.
그는 이어 "이제는 단순한 말뭉치가 아니라, 고난도의 논리 구조와 인간의 가치 판단이 정교하게 라벨링 된 데이터가 필요하지만, 이를 생산하고 검증하는 비용은 기하급수적으로 늘고 있다"고 덧붙였다.
데이터 부족의 대안으로 업계가 주목한 것이 '합성 데이터(Synthetic Data)'다. AI가 만든 텍스트와 이미지로 다시 차세대 AI를 학습시키는 방식이다. 인간의 기록이 부족하다면, AI가 스스로 데이터를 생성해 자가 발전하면 된다는 발상이다. 하지만 이 방식은 최근 '모델 붕괴(Model Collapse)'라는 치명적인 구조적 결함을 드러냈다.
영국 옥스퍼드대, 케임브리지대, 캐나다 토론토대 공동연구진은 국제 학술지 '네이처'에 발표한 논문에서 AI 생성 데이터를 반복 학습한 모델이 불과 몇 세대 만에 본래의 데이터 분포를 잊고 횡설수설하는 '지능의 퇴행' 과정을 입증했다. 연구진은 이를 통해 AI가 확률적으로 드문 사례(Outliers)를 단순한 오차로 간주해 삭제하면서, 정보의 다양성이 급격히 사라지는 메커니즘을 분석했다.
이는 사진을 복사하고 그 복사본을 다시 복사하면 어느 순간 형체를 알 수 없게 뭉개지는 '열화 현상'이 지능의 영역에서도 벌어지는 셈이다. 결과적으로 합성 데이터에만 의존한 AI는 편향된 정보만을 반복 재생산하는 '에코 체임버(Echo Chamber)'에 갇히게 된다.
이런 위기감은 AI 거장들의 발언에서도 명확히 드러난다. 오픈AI의 공동창립자이자 전 수석과학자인 일리야 수츠케버는 최근 한 기조연설에서 "우리는 인터넷이라는 금광을 거의 다 캤으며, 이제는 단순한 규모 확장(Scaling Law)만으로는 다음 단계의 지능에 도달하기 어렵다"고 지적했다. 이는 AI 경쟁의 승부처가 GPU 개수에서 '남들이 가지지 못한 배타적 데이터'로 옮겨갔음을 선언한 것이다.
메타의 AI 수석과학자 얀 르쿤 역시 텍스트 위주 학습의 근본적 한계를 지적해왔다. 그는 저서와 학술 강연을 통해 "인간의 아이는 수조 개의 단어를 읽어서 지능을 얻는 것이 아니라, 물리적 세계와의 실시간 상호작용을 통해 배운다"고 강조한다. 텍스트 데이터에만 의존하는 현재의 학습 방식은 결국 현실 세계와 동떨어진 '환각의 루프'에 빠질 뿐이라는 비판이다. 그는 텍스트를 넘어선 영상과 감각 데이터, 즉 물리 법칙을 스스로 이해할 수 있는 '세계 모델(World Model)'로의 아키텍처 전환이 필요하다고 주장한다.
결국 AI의 학습이 정체기에 접어든다는 것은 기술적 재난이라기보다 '성장의 패러다임'이 변화하고 있음을 의미한다. 지금까지 AI가 인간의 기록을 대량으로 흡수하며 덩치를 키운 시기였다면, 앞으로는 데이터의 '양'보다 '질', 그리고 그 데이터를 생성하는 인간의 창의적 기록이 AI의 생존을 결정하는 귀한 자산이 될 전망이다.
실험실의 정교한 관측 데이터, 현장의 생생한 관찰 기록, 그리고 인간만이 내릴 수 있는 복잡한 도덕적·철학적 판단은 AI가 스스로 합성해낼 수 없는 영역이다. 이 때문에 구글, 마이크로소프트 등 거대 테크 기업들은 이제 단순히 데이터를 수집하는 것을 넘어 전문가 집단을 고용해 AI에게 가르칠 '고품질의 문제지'를 직접 제작하는 데 천문학적인 자금을 쏟아붓고 있다.
AI의 다음 단계는 기계 안에만 있지 않다. 그 답은 여전히 인간이 살아가는 물리적 세계와 그 속에서 만들어지는 1차 데이터에 있다. AI가 배울 것이 없어 보이는 지금의 순간은, 사실 기술의 한계가 아니라 인간이 무엇을 소중히 기록하고 남겨야 하는지를 다시 묻는 성찰의 시간이 되고 있다. AI가 무엇을 할 수 있는지를 묻는 시대에서, 우리가 어떤 세계를 데이터로 남길 것인지를 고민해야 하는 시대로 접어든 것이다.