본문 바로가기
bar_progress

글자크기 설정

닫기

[AI 데이터 고갈 위기]"2년 후 AI 성장 멈출 수도"…데이터 절벽 '경고'

시계아이콘02분 42초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

국내 인공지능 기업 A사는 학습용 한글 데이터가 부족해 해외 데이터를 구매했다.

AI 학습 데이터 전문기업 인피닉의 최유라 수석연구원은 "저작권 문제를 해결하면 사용 가능한 텍스트와 달리 산업용으로 쓸 수 있는 비정형 데이터는 거의 없다"고 설명했다.

한글 데이터 부족은 더 심각하다.

닫기
뉴스듣기

AI 학습용 고품질 데이터 바닥
치솟은 데이터 비용…기업 부담 커져
해외 데이터 구하거나 편법 동원하기도
"AI 세 번째 겨울 온다" 우려도

[AI 데이터 고갈 위기]"2년 후 AI 성장 멈출 수도"…데이터 절벽 '경고'
AD

#국내 인공지능(AI) 기업 A사는 학습용 한글 데이터가 부족해 해외 데이터를 구매했다. 번역 서비스를 제공하려면 각국 언어를 한국어로 옮긴 데이터가 필요하지만 충분치 않았기 때문이다. 결국 인도네시아어를 일본어로 번역한 데이터를 구매해 이를 다시 한국어로 전환했다. A 기업 대표는 "여러 번 번역을 거치면 오류가 생기거나 언어적 뉘앙스가 잘 전달되지 않을 수 있지만 어쩔 수 없었다"고 토로했다.


#AI 스타트업 B사는 올해 들어 투자금 중 40%가량을 데이터 확보에 썼다. 데이터 수집·처리 비용이 기하급수적으로 올라가면서 개발자 인건비나 인프라 비용보다 더 많은 돈을 지불했다. B사 대표는 "비용을 감당하지 못하는 곳은 저작권이 애매한 동영상을 텍스트로 전환(Speech-to-Text)해 학습하는 등 편법을 쓰기도 한다"고 귀띔했다.


AI 학습에 필수적인 데이터 확보에 비상이 걸렸다. 거대언어모델(LLM) 등장 이후 AI 모델이 필요로 하는 양질의 데이터가 점점 고갈되고 있기 때문이다. 이르면 수년 안에 학습용 데이터가 바닥나 AI가 침체기를 맞을 것이라는 암울한 전망까지 나온다.


"수년 내 데이터 절벽"
[AI 데이터 고갈 위기]"2년 후 AI 성장 멈출 수도"…데이터 절벽 '경고'

26일 AI 연구기관 에포크AI(Epoch AI)에 따르면 2년 후인 2026년부터 AI 학습용 데이터가 소진되기 시작할 전망이다. AI 학습 속도가 가속화되면서 데이터 증가 속도를 앞지르고 있기 때문이다. 에포크AI는 특히 "AI가 과잉훈련(Over training)한다고 가정하면 당장 내년부터 데이터 고갈에 직면할 것"으로 내다봤다. AI 과잉훈련은 경량화·효율화를 위해 모델을 키우기보다 학습 데이터를 늘리는 시도다.


AI는 텍스트, 이미지, 영상으로 학습 범위를 넓히면서 발전에 가속도가 붙었다. 오픈AI가 2020년 내놓은 GPT-3는 약 3000억개 토큰(문장의 최소 단위)을 학습했다. 이로부터 3년 뒤 출시한 GPT-4는 12조개 토큰을 학습한 것으로 추산된다. 올해 등장한 메타의 최신 모델 라마3는 15조개가 넘는 토큰을 학습했다. 불과 4년 만에 학습 데이터양이 50배 늘어난 것이다.


반면 데이터 구하기는 점점 어려워지고 있다. 지금까지 AI는 도서, 논문을 비롯해 인터넷에 떠도는 정보를 긁어다 학습하는 경우가 대부분이었다. 뉴스, 소셜 미디어, 블로그 콘텐츠 등도 AI 먹잇감이다. 하지만 AI 훈련에 사용할 수 있는 언어 데이터는 연간 7%씩 증가하는 데 그치고 있다.


데이터가 있다고 해도 저작권 문제를 해결해야 한다. 그간 AI 학습 데이터를 무단으로 썼다는 비판에 부딪히면서 뉴스 등에 대한 활용이 막혔다. LLM을 고도화하기 위한 고품질 데이터는 씨가 말랐다. 고품질 데이터는 주제가 다양하고 풍부한 표현이 들어간 데이터다. 철자 오류나 문법 오류가 없으면서 일관성 있는 정보가 필요하다.


그러나 인터넷에 떠도는 정보 중 고품질 데이터는 10%도 되지 않는다. 음성을 인식하고 그림을 그리는 멀티모달 AI로 진화하면서 다양한 데이터도 필요하지만 구하기가 어렵다. 음성, 영상 데이터는 그 수가 적을 뿐 아니라 개인정보 문제로 사용하기 어렵기 때문이다. AI 학습 데이터 전문기업 인피닉의 최유라 수석연구원은 "저작권 문제를 해결하면 사용 가능한 텍스트와 달리 산업용으로 쓸 수 있는 비정형 데이터는 거의 없다"고 설명했다.


한글 데이터 부족은 더 심각하다. 사용하는 인구가 적으니 확보할 수 있는 데이터 자체가 적다. '커먼크롤(Common Crawl)' 같은 데이터 공개 플랫폼도 없다. 커먼크롤은 미국의 비영리 조직이 만든 플랫폼이다. 온라인에 공개된 데이터 중 수집 허가가 된 것을 모아 제공한다. 데이터 가격 산정 기준이 없을 정도로 거래 시장도 자리를 잡지 못했다. AI 기업 코난테크놀로지의 이문기 데이터사업부 이사는 "네이버, 카카오 등 한국 기업들의 데이터를 모두 합쳐봐야 조(兆)원 단위도 되지 않는다"며 "빅테크(대형 정보기술 기업)와 비교해 6~7% 수준"이라고 지적했다.

[AI 데이터 고갈 위기]"2년 후 AI 성장 멈출 수도"…데이터 절벽 '경고'

"기업 70%가 데이터 부족"

국내 기업들은 데이터 부족을 호소한다. 과학기술정보통신부 산하 소프트웨어정책연구소가 발표한 '2023 인공지능 산업 실태조사'를 보면 국내 AI 기업 중 70.8%가 데이터 확보 및 품질 문제로 애로사항을 겪는다고 응답했다. AI 인력 부족에 이어 가장 큰 문제점으로 꼽았다. 데이터 문제는 컴퓨팅 장비 등 AI 인프라 부족(53.2%)보다 높은 응답률을 나타냈다.


대기업도 예외는 아니다. 데이터 부족으로 해외 데이터를 구매하거나 합성 데이터를 이용하는 것으로 전해진다. 네이버는 초거대 AI '하이퍼클로바X'에 뉴스와 블로그 등을 학습시키다 저작권 문제로 지난해부터 뉴스 학습을 중단시켰다. 언론사와 데이터 이용을 두고 논의 중이지만 입장차를 좁히지 못한 상황이다. 업계 관계자는 "대기업은 모델이 크기 때문에 더 많은 데이터가 필요하다"며 "데이터가 부족해 영어 데이터를 사거나 저작권이 애매한 데이터를 파인튜닝(미세조정)용으로만 쓰기도 하는 것으로 안다"고 했다.


중소기업이나 스타트업의 어려움은 더욱 크다. 데이터 수집뿐 아니라 이를 AI 학습용으로 처리하는 모든 게 비용이기 때문이다. AI 뷰티 솔루션을 제공하는 앙트러리얼리티의 이동윤 대표는 "얼굴은 개인정보 문제로 수집 자체가 어렵고 공개된 데이터도 많지 않다"며 "스타트업 입장에선 데이터 부족으로 사업화 검증(PoC) 단계부터 장벽에 부딪힐 수 있다"고 우려했다.


데이터 부족으로 AI가 세 번째 겨울을 맞을 수 있다는 전망까지 나온다. AI는 기술적 한계로 1970년대와 1980년대 두 번의 침체기를 겪었다. 챗GPT 등 생성형 AI 등장으로 다시 황금기를 열었지만 데이터 절벽에 부딪힐 수 있다는 것이다. 영국 과학 전문지 뉴사이언티스트는 "훈련 데이터가 소진되면서 AI 발전 속도가 둔화될 가능성이 높다"고 분석했다.



최근 미국 반도체기업 엔비디아 주가가 연일 하락하면서 잠잠하던 'AI 거품론'이 다시 부각될 조짐을 보이기도 했다. AP통신은 "AI 열풍이 너무 과열돼 지나친 기대에 대한 우려가 제기되고 있다"고 짚었다. 이 이사는 "데이터 부족으로 AI 발전이 시장의 눈높이를 충족시키지 못할 수 있다"며 "세 번째 겨울이 올까 걱정"이라고 말했다.




최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 26.02.0307:05
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:04
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:03
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:02
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:01
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.01.2306:55
    "한류 지금 르네상스…각국 인허가 뒷받침 필요"⑫
    "한류 지금 르네상스…각국 인허가 뒷받침 필요"⑫

    지난해 11월 말 주베트남한국문화원 주최로 베트남 하노이 OEG 스타디움에서 열린 '2025 한국게임주간'. 우리나라와 베트남의 게임산업과 문화를 교류하기 위해 3년째 진행하는 이 행사에는 5000여명이 몰려 성황을 이뤘다. 사흘간 열린 행사 중에는 양국에서 높은 인기를 얻고 있는 리그 오브 레전드(LoL), 배틀그라운드 모바일, 크로스파이어 등 e스포츠 대회 세 종목의 예선과 결선도 있었다. 이 자리에 한국 e스포츠팀 DRX 소

  • 26.01.2214:58
    베트남 '하노이 핫플' 韓 쇼핑몰 그대로 옮겨놨네
    베트남 '하노이 핫플' 韓 쇼핑몰 그대로 옮겨놨네

    ⑩ #베트남 수도 하노이에서 가장 큰 호수인 '서호(West Lake)'를 마주한 롯데몰 웨스트레이크 하노이. 출입문 앞 광장의 분수는 싸이의 '강남스타일', 빅뱅의 '하루하루' 등 K팝 리듬에 맞춰 조명과 물줄기가 시시각각 변했다. 한껏 멋을 낸 20대 여성들과 어린아이를 동반한 부모들은 분수대와 쇼핑몰을 배경으로 연신 휴대전화 카메라 셔터를 눌렀다. 내부는 화이트톤 인테리어부터 떡볶이 무한리필 뷔페 '두끼'와

  • 26.01.2209:09
    "어라, 여기가 한국인 줄"…떡볶이 무한리필에 뷰티숍까지 '하노이 핫플' ⑩
    "어라, 여기가 한국인 줄"…떡볶이 무한리필에 뷰티숍까지 '하노이 핫플' ⑩

    #베트남 수도 하노이에서 가장 큰 호수인 '서호(West Lake)'를 마주한 롯데몰 웨스트레이크 하노이. 출입문 앞 광장의 분수는 싸이의 '강남스타일', 빅뱅의 '하루하루' 등 K팝 리듬에 맞춰 조명과 물줄기가 시시각각 변했다. 한껏 멋을 낸 20대 여성들과 어린아이를 동반한 부모들은 분수대와 쇼핑몰을 배경으로 연신 휴대전화 카메라 셔터를 눌렀다. 내부는 화이트톤 인테리어부터 떡볶이 무한리필 뷔페 '두끼'와 중식당 '연경',

  • 26.01.2207:11
    맥날은 체면 구겼는데…"치킨 염지까지 맞춰" 까다로운 베트남서 '훨훨' 롯데리아 ⑨
    맥날은 체면 구겼는데…"치킨 염지까지 맞춰" 까다로운 베트남서 '훨훨' 롯데리아 ⑨

    베트남 하노이에서 가장 큰 호수인 서호(West Lake)를 바라볼 수 있는 롯데리아 락롱콴점. 4만6000동(약 2500원)짜리 치킨볼 라이스를 주문하자 10조각 남짓한 팝콘 치킨에 안남미로 지은 밥 한덩이와 달걀 프라이, 토마토와 양배추샐러드 등이 한 접시에 담겨 나왔다. 겉면에 윤이 나는 소스를 바른 팝콘 치킨을 한 입 베어 물자 강렬한 단맛이 입안에 퍼졌다. 이우주 베트남 롯데리아 운영팀장은 "퀵서비스 레스토랑(QSR)에서 버

  • 26.01.2115:53
    '뷔 얼굴' 하나로 국적이 바뀌었다…한국어만 들어가면 불티나게 팔려
    '뷔 얼굴' 하나로 국적이 바뀌었다…한국어만 들어가면 불티나게 팔려

    지난달 일본 최대 뷰티 편집숍 '앳코스메 도쿄(@come TOKYO)'는 일본 뷰티 브랜드 '윤스(Yunth)' 팝업스토어 입장을 기다리는 대기줄로 북적였다. 일본 MZ세대(밀레니얼+Z세대)와 관광객이 자주 찾는 쇼핑의 거리 '하라주쿠'에 위치한 매장은 K팝 아이돌인 방탄소년단(BTS) 뷔의 대형 사진이 방문객들의 눈길을 사로잡았다. 윤스는 지난해 10월29일 뷔를 앰버서더로 발탁했다. 이 때문에 일부 방문객들은 윤스를 K뷰티 브랜드로 오

  • 26.02.0314:25
    장성철 "한동훈의 알파와 오메가는 배지"
    장성철 "한동훈의 알파와 오메가는 배지"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 장성철 공론센터 소장(2월 2일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 장성철 공론센터 소장과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 이재명 대통령 SNS 정치, 지난주 토요일부터 오늘 오전까지 9개를 올렸습니다.

  • 26.01.2907:47
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'

    김민석 국무총리와 정청래 더불어민주당 대표가 '장군멍군'을 하고 있다. 보이지 않는 힘겨루기가 한창이다. 올 8월 전당대회를 향한 움직임이다. '8월 전대'는 누가 당 대표가 되느냐를 넘어 여권의 권력 지형을 가르는 의미가 있다. 정 대표가 연임에 성공한다면 그의 정치적 힘은 지금보다 더 커진다. 여권 내 위상이 올라가는 것도 당연하다. 2028년 국회의원 선거의 공천권을 쥐기 때문이다. 김민석 국무총리가 대표가 된다면

  • 26.01.2811:24
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"

    여당인 더불어민주당 내 긴장감이 높아가는 흐름이다. '명청대전'이라는 말이 나오더니 최근에는 최고위원회에서 직접 언쟁을 주고받았다. 일부 최고위원들이 회의에 불참하는 일도 벌어졌다. 8월 전당대회를 앞둔 세력 격돌이 서서히 본격화하는 모양새다. 이언주 더불어민주당 수석최고위원은 그 한가운데 있다. 최근 이 수석최고위원과 두 차례 인터뷰했다. 지난 21일 '소종섭의 시사쇼'에 출연해 1시간 인터뷰했고, 27일엔 전화

  • 26.01.2611:31
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 서용주 맥정치사회연구소장, 윤희석 전 국민의힘 대변인(1월 22일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까? 소종섭의 시사쇼 시작하겠습니다. 서용주 맥 정치사회연구소장님과 윤희석 전 국민의힘 대변인, 두 분 모시고 최근 여

  • 26.01.2211:15
    이언주 "이혜훈 '청약 문제' 있을 수 없는 일,여론 매우 안 좋아"
    이언주 "이혜훈 '청약 문제' 있을 수 없는 일,여론 매우 안 좋아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 이언주 더불어민주당 수석최고위원(1월 21일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. '소종섭의 시사쇼' 시작하겠습니다. 오늘은 더불어민주당 이언주 수석최고위원, 미래경제 성장전략위원장도 맡고 있죠? 바쁘실 텐데 나와주


다양한 채널에서 아시아경제를 만나보세요!

위로가기