본문 바로가기
bar_progress

글자크기 설정

닫기

유전병에 고통받는 인공지능 [AI오답노트]

시계아이콘02분 56초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기

(22)데이터 고갈, '합성 데이터'로 때우려다간
유럽 지배한 왕가 합스부르크처럼 무너질 수
데이터 다양성·인간이 생성한 정보는 계속 중요

편집자주실패를 살펴보는 것은 성공으로 가는 지름길입니다. 'AI오답노트'는 AI와 관련한 제품과 서비스, 기업, 인물의 실패 사례를 탐구합니다.

합스부르크(Habsburg) 가문은 600년 가까이 유럽을 지배한 왕가였습니다. 비결은 ‘결혼’이었습니다. 주변 강국과 혼맥을 형성하면서 지배권을 확립해나갔죠. 이 가문의 카를 5세는 신성로마제국 황제, 스페인왕, 독일왕, 오스트리아 대공, 네덜란드 영주 등 직함이 20개가 넘었습니다. 그의 나이는 불과 19세였죠.


이들은 왕가의 혈통을 '순수하게' 유지하려고 했습니다. 그래서 친족 간 결혼을 반복했죠. 삼촌과 조카, 사촌 간의 결혼이 매우 흔했습니다. 이는 결국 유전병으로 이어졌죠.


유전병에 고통받는 인공지능 [AI오답노트] 근친혼의 결과로 나타난 대표적인 유전적 특징이 ‘합스부르크 턱’이었습니다. 아래턱이 비정상적으로 돌출되는 증상으로, 발음과 씹는 것에 어려움을 겪었죠. 스페인의 카를로스 2세는 이러한 특징이 가장 심각하게 나타난 인물 중 한 명이었습니다.
AD



여러 세대에 걸친 지속적인 근친혼으로 인해 유전적 다양성이 매우 낮아졌고, 건강 문제가 나타났습니다. 카를로스 2세의 경우 심각한 신체적, 정신적 장애를 겪었습니다. 자식을 남기지 못한 채 사망하면서 스페인 합스부르크 왕가는 끝나게 되었습니다. 결혼으로 흥했다가, 결혼으로 망한 셈이죠. 유전적 다양성이 개체의 지속가능성에 얼마나 중요한지를 잘 보여주는 사례죠.


합스부르크 사례는 AI업계에서도 종종 회자되곤 합니다. 실제로 ‘합스부르크 AI’란 명칭마저 존재하죠. 문자 그대로, 합스부르크 제국이 근친혼으로 인해 붕괴된 역사적 사실에 빗대어 만들어진 용어입니다. AI 모델이 ‘합성 데이터(Synthetic Data)’에 과도하게 의존할 경우 발생할 수 있는 문제점을 지적하는 은유적 표현입니다.


빠르고 저렴한 데이터 : 합성데이터의 힘
유전병에 고통받는 인공지능 [AI오답노트] '합성 데이터'는 1993년 도널드 루빈 미국 하버드대 통계학과 교수가 처음 제안한 개념입니다. 게티이미지뱅크

합성 데이터란, 실제 데이터를 모방해 인공적으로 생성한 데이터입니다. 학습에 적절한 데이터가 없거나, 데이터 획득 비용이 너무 높을 때 이용할 수 있는 대안이죠.


가령 자율주행차 개발 과정에서 유용합니다. 충돌 방지를 위한 학습을 시키려면, 다양한 충돌 데이터가 필요합니다. 하지만 이런 데이터는 차선 변경, 표지판 인식 등에 비해선 그 양이 비교할 수 없을 정도로 부족할 겁니다. 발생 빈도가 확연히 적으니까요. 그럴 때 컴퓨터 시뮬레이션을 통해 가상 도로 운전을 하고 충돌 상황을 재현하면 필요한 데이터를 얻을 수 있습니다. 빠르고 저렴하죠.


실제 데이터가 부족한 특정 상황이나 희귀 케이스를 인위적으로 보강하는 전략도 가능합니다. 편향적인 데이터의 균형을 맞추는 데도 도움이 됩니다.


프라이버시 보호도 합성 데이터의 강점입니다. 실제 개인정보를 사용하지 않으면서도 유사한 특성을 가진 데이터로 AI를 학습시킬 수 있거든요. 실제 환자 기록을 바탕으로 가상의 환자 데이터를 만들거나, 실제 거래 내역을 분석해 유사한 패턴의 가상 거래 데이터를 생성할 수 있습니다.

유전병에 고통받는 인공지능 [AI오답노트]

글로벌 시장조사 업체인 가트너에 따르면, 2030년경에는 AI 학습에 합성 데이터를 실제 데이터보다 더 많이 사용할 것이라고 합니다. 가트너는 “합성 데이터 없이는 고성능, 고품질 AI 개발이 불가능할 것”이라고 예측했죠.


일론 머스크가 설립한 AI 스타트업 ‘xAI’는 지난달 AI 챗봇 '그록(Grok)3'를 공개했습니다. xAI는 이날 라이브스트림으로 중계한 발표회에서 “그록3가 수학, 과학, 코딩 벤치마크 테스트에서 알파벳의 구글 제미나이, 앤스로픽의 클로드, 오픈AI의 GPT-4o를 앞섰다”고 주장했습니다.


뛰어난 성능은 주목을 받기에 충분했습니다. 머스크는 “그록3의 연산능력은 이전 버전 대비 10배가 넘는다”면서 “지구에서 가장 똑똑한 AI”라고 했죠. xAI 연구진은 “그록3가 대량의 합성 데이터 세트와 자체 오류수정, 강화학습을 통해 그록2보다 정교한 결과를 내놓는다”고 설명했습니다. 2023년 7월 회사 설립, 그해 11월 첫 '그록' 공개, 지난해 8월 '그록2'를 출시한 지 6개월 만이었죠.


이렇게 짧은 시간에 강력한 성능을 지닌 AI를 만들어낼 수 있었던 비결 중에는, xAI 연구진이 앞서 밝힌 ‘합성 데이터’가 있었습니다.


그록을 향한 물음표 : 합성 데이터의 위험성
유전병에 고통받는 인공지능 [AI오답노트] 디자이너 마틴 디즐리가 '합스부르크 AI'를 주제로 생성한 초상화 이미지. 마틴 디즐리 인스타그램

그러나 그록3는 즉각적인 비판에 부딪혔습니다. 성능은 뛰어나지만, 그록3를 뛰어나게 만들어준 그 장점, 바로 합성 데이터가 한편으로 독이 될 수 있다는 겁니다.


영국 옥스포드대학 연구팀은 지난해 6월 국제학술지 네이처에 게재한 논문에서, 사람이 아닌 AI가 생성한 데이터로 학습한 AI의 성능은 급격히 떨어질 수 있다고 밝혔습니다. 연구진은 첫 AI 모델로 14세기 영국 교회 탑, 건축물에 대한 텍스트 정보를 만들어냈습니다. 이후 이 정보를 토대로 새로운 답변을 유도하는 등 되먹임 과정을 반복했습니다. 이 과정이 반복될수록, AI는 뜬금없는 결과물을 내놓기 시작했습니다. 중세 건축물과 관련한 이야기는 사라지고, 명령을 하지도 않았는데 외국어로 답변을 내놓는가 하면, 웬 토끼 이야기를 꺼내기도 했습니다.


연구진은 이를 ‘모델 붕괴(models collapse)’라 개념화했습니다. AI로 만들어낸 정보를 AI가 받아서 학습하는 과정을 반복하면, 결과물의 가치가 갈수록 퇴행한다는 것이죠. 호주 모내시대학의 데이터과학자 제이선 섀도스키는 이를 아예 ‘합스부르크 AI’라 명명했습니다. 합스부르크 가문이 지속적인 근친교배를 통해 유전적 다양성을 잃고 무너져가는 과정을 빗댄 것이죠.


합성 데이터를 둘러싼 잠재적 위험은 또 있습니다. 데이터에 존재하는 편향성을 중화시키기는커녕 증폭시킬 수 있다는 점이죠. 합성데이터를 활용한 AI 모델에서 기존 데이터의 편향이 그대로 복제되거나 오히려 강화될 수 있다는 겁니다. 파이낸셜타임스(FT)는 “빅테크들이 사람이 만든 데이터를 얻기 위해 수많은 자금을 투자하는 이유”라고 평했습니다.


데이터 고갈은 불가피…최적의 데이터 배합 찾아야
유전병에 고통받는 인공지능 [AI오답노트]

이러한 위험성에도 불구하고, 합성 데이터는 AI 개발에서 중요한 도구로 남을 것으로 보입니다. AI 업계 전문가들은 합성 데이터의 위험을 인식하면서도 그 활용 가치를 부정하지는 않고 있죠. 실제 데이터와 합성 데이터를 적절히 혼합하고, 합성 데이터의 생성 과정과 품질을 엄격히 관리하는 것이 중요하다는 겁니다.


앞서 언급한 옥스포드대 연구진의 논문에서도 이와 비슷한 내용을 찾아볼 수 있습니다. 합성 데이터에 인간이 생성한 데이터를 조금 섞었더니, AI 모델 붕괴가 발생하는 비율이 줄어들었다는 겁니다. 인간 데이터를 10%만 포함해도 모델 붕괴는 크게 더뎌졌다고 합니다.


더군다나 인간이 생성하는 데이터의 양이 점차 고갈되고 있다는 현실도 무시할 수 없습니다. 오픈AI 공동창업자 일리야 수츠케버는 지난해 캐나다 벤쿠버에서 열린 한 강연에서 AI 모델 학습을 위한 데이터를 “유한한 화석연료”에 비유하면서 “현재 AI의 성능 향상에 도움이 될 만한 인터넷 데이터는 이미 바닥을 드러냈다”고 주장했습니다.


AD

‘AI 유전병’이 무섭다는 이유로, 합성 데이터를 무조건 금기시해선 안 되는 상황인 것이죠. 인간이 만든 실제 데이터를 완전히 대체할 수 없는 합성 데이터의 한계를 명확히 인식하고, 그 위험성과 가능성을 균형 있게 바라보는 관점이 필요한 때입니다.




김동표 기자 letmein@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 26.02.1414:44
    좁을수록 인기?…수도권에선 중형 면적보다 소형 청약 '러시'
    좁을수록 인기?…수도권에선 중형 면적보다 소형 청약 '러시'

    분양가 상승 흐름으로 인해 수도권 아파트 청약 시장에서 소형 면적이 중형보다 더 큰 인기를 얻고 있다. 지난해엔 소형 청약자 수가 처음으로 중형을 앞서기도 했다. 14일 부동산R114에 따르면 지난해 수도권 아파트 청약자 총 48만5271명 중 전용면적 60㎡ 이하 소형아파트에 21만8047명이 몰린 것으로 파악됐다. 전용 60∼85㎡의 중형 아파트에 21만7322명, 전용 85㎡를 초과하는 대형 아파트에 4만9902명이 접수했다. 한국부동

  • 26.02.1311:00
    정부 발표 2시간 만에 한 단지서 신규매물 3건…갭투자 일시 허용에도 '관망'
    정부 발표 2시간 만에 한 단지서 신규매물 3건…갭투자 일시 허용에도 '관망'

    정부가 다주택자 양도세 중과 조치를 재시행하기로 최종 발표한 이후 시장에선 매물을 내놓겠다는 다주택자의 문의가 늘고 있다. 무주택자가 세입자 있는 다주택자 집을 사게 되면 전월세 계약 종료 때까지 '일시적 갭투자'가 가능하다. 다만 매물이 늘어나면 가격 하락이 예상되는 만큼 매수자들은 서두르지 않고 있다. 앞으로 매물이 더 풀릴 것이라는 전망이 우세하면서 관망하는 것이다. 서울 지역 아파트 값 증가율은 2주 연속

  • 26.02.1310:20
    "지금 아니면 이 가격에 못 사요" 사람들 몰리더니 '잠실 르엘' 보류지 완판
    "지금 아니면 이 가격에 못 사요" 사람들 몰리더니 '잠실 르엘' 보류지 완판

    잠실미성크로바 재건축 조합이 내놓은 서울 송파구 '잠실 르엘' 보류지 10가구가 유찰 없이 첫 입찰에서 전량 낙찰됐다. 감정평가금액보다 5%가량 높은 기준가를 책정했음에도 40여명이 입찰에 참여해 평균 4대 1의 경쟁률을 기록했다. 13일 롯데건설에 따르면 조합은 최고가 공개경쟁입찰 방식으로 전용면적 59㎡B 3가구와 74㎡B 7가구를 매각했다. 입찰 기준가는 59㎡가 29억800만~29억9200만원, 74㎡가 33억1800만~35억3300만원

  • 26.02.1216:38
    다주택자 매물 늘자 서울 아파트값 상승폭 2주 연속 축소…강남 둔화 뚜렷
    다주택자 매물 늘자 서울 아파트값 상승폭 2주 연속 축소…강남 둔화 뚜렷

    서울 아파트 매매가격 상승 폭이 2주 연속 좁혀졌다. 다주택자 양도소득세 중과 유예 종료 시점이 다가오면서 다주택자들이 세 부담을 줄이기 위해 호가를 낮춘 매물을 내놓고 있는 것이 주된 원인으로 꼽힌다. 한국부동산원이 12일 발표한 2월 2주 차(9일 기준) 주간 아파트 가격 동향 자료를 보면, 서울 아파트 평균 매매가격 상승률은 직전 주보다 0.05%포인트 낮은 0.22%로 집계됐다. 다만 서울 아파트값은 53주째 상승세를 이

  • 26.02.1211:20
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락

    "인근 신축 아파트 33평(전용면적 84㎡)이 전에는 24억원에 호가가 형성됐어요. 그런데 양도세 중과 발표가 나오고 21억5000만원에 매물이 나왔고 이젠 21억원에라도 팔겠다고 하네요."(서울 양천구 신정동 A공인) 정부의 다주택자 양도세 중과 방침이 확정된 이후 시장에선 체감할 만큼 다주택자 매물이 풀리고 있다. 수억원씩 호가를 낮춰 내놓거나 세입자가 있어 당장 정리하기 어려운 경우엔 위로금 명목의 웃돈을 주고 매각하

  • 26.02.0307:05
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:04
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:03
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:02
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:01
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0511:23
    박원석 "전한길, 이석기보다 훨씬 더 위험"
    박원석 "전한길, 이석기보다 훨씬 더 위험"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금·오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 박수민 PD■ 출연 : 박원석 전 국회의원(2월4일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 소종섭의 시사쇼 시작하겠습니다. 오늘은 박원석 전 의원과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 박원석 : 네, 안녕하십니까. 소종섭 : 오늘 장

  • 26.02.0314:25
    장성철 "한동훈의 알파와 오메가는 배지"
    장성철 "한동훈의 알파와 오메가는 배지"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 장성철 공론센터 소장(2월 2일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 장성철 공론센터 소장과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 이재명 대통령 SNS 정치, 지난주 토요일부터 오늘 오전까지 9개를 올렸습니다.

  • 26.01.2907:47
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'

    김민석 국무총리와 정청래 더불어민주당 대표가 '장군멍군'을 하고 있다. 보이지 않는 힘겨루기가 한창이다. 올 8월 전당대회를 향한 움직임이다. '8월 전대'는 누가 당 대표가 되느냐를 넘어 여권의 권력 지형을 가르는 의미가 있다. 정 대표가 연임에 성공한다면 그의 정치적 힘은 지금보다 더 커진다. 여권 내 위상이 올라가는 것도 당연하다. 2028년 국회의원 선거의 공천권을 쥐기 때문이다. 김민석 국무총리가 대표가 된다면

  • 26.01.2811:24
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"

    여당인 더불어민주당 내 긴장감이 높아가는 흐름이다. '명청대전'이라는 말이 나오더니 최근에는 최고위원회에서 직접 언쟁을 주고받았다. 일부 최고위원들이 회의에 불참하는 일도 벌어졌다. 8월 전당대회를 앞둔 세력 격돌이 서서히 본격화하는 모양새다. 이언주 더불어민주당 수석최고위원은 그 한가운데 있다. 최근 이 수석최고위원과 두 차례 인터뷰했다. 지난 21일 '소종섭의 시사쇼'에 출연해 1시간 인터뷰했고, 27일엔 전화

  • 26.01.2611:31
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 서용주 맥정치사회연구소장, 윤희석 전 국민의힘 대변인(1월 22일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까? 소종섭의 시사쇼 시작하겠습니다. 서용주 맥 정치사회연구소장님과 윤희석 전 국민의힘 대변인, 두 분 모시고 최근 여


다양한 채널에서 아시아경제를 만나보세요!

위로가기