본문 바로가기
bar_progress

글자크기 설정

닫기

저질 숏폼에 절여진 AI, 추론 못하고 성능저하 …"데이터 품질도 관리해야"

시계아이콘01분 54초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기

AI도 '쓰레기 데이터' 학습하면 성능 떨어져
복잡한 문제 생각하지 않고 결과 도출
"대형 언어모델의 품질 관리 필요"

1분 이내로 짧고 자극적으로 만들어진 '숏폼 콘텐츠'가 사람의 정신건강뿐만 아니라 인공지능(AI)의 성능까지 해친다는 연구 결과가 나왔다. 사회관계망서비스(SNS)에서 떠도는 저품질 데이터가 AI의 성능을 영구적으로 해칠 수 있어 학습하는 데이터의 품질을 관리해야 한다는 진단이 나오고 있다.


저질 숏폼에 절여진 AI, 추론 못하고 성능저하 …"데이터 품질도 관리해야"
AD

텍사스 A&M 대학교, 텍사스대학교 오스틴캠퍼스의 연구진은 지난 15일(현지시간) '대형 언어모델도 브레인 로트(Brain rot·뇌 부패)에 걸릴 수 있다'(LLMS can get 'brain rot')는 제목의 논문을 내놓았다. 브레인 로트란 온라인 콘텐츠를 과잉 소비해 정신 또는 지적 상태가 나빠지는 것을 의미한다. 특히 인스타그램 릴스나 유튜브 쇼츠 등 숏폼 콘텐츠가 브레인 로트를 유발한다. 옥스퍼드 영어사전을 발행하는 영국 옥스퍼드대학 출판부는 지난해 브레인 로트를 올해의 단어로 선정하기도 했다.


연구진은 M1과 M2 등 두 개 기준을 통해 사회관계망서비스(SNS) 엑스(X·옛 트위터)의 콘텐츠를 '쓰레기 데이터'와 '고품질 데이터'로 구분했다. M1은 게시물의 길이와 공감 수, 댓글 수, 게시물 공유 수 등을 종합해 인기도를 측정하는 기준이다. 예를 들어 게시물의 길이가 짧으면서 많은 인기를 끌었다면 쓰레기 데이터로 구분된다. M2는 내용의 깊이나 표현법 등 의미적 요소에 대한 기준으로 감탄사를 남발하거나 음모론을 주장하면 쓰레기 데이터, 사실 중심으로 논리를 펴거나 차분한 어조의 글은 고품질 데이터로 분류된다.


연구진은 이 같은 기준을 통해 데이터를 나눠서 각각 라마 38B(Llama38B), 큐엔 2.57B(Qwen2.57B), 큐엔 2.50.5B(Qwen2.50.5B), 큐엔 34B(Qwen34B) 등 대형 언어모델(LLM)들에 학습시켰다. 대형 언어모델은 방대한 양의 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성하는 AI를 뜻한다.


저질 숏폼에 절여진 AI, 추론 못하고 성능저하 …"데이터 품질도 관리해야" AP연합뉴스

논문에 따르면 쓰레기 데이터를 학습한 대형 언어모델은 성능 저하가 나타났다. 추론 능력, 장문 맥락 이해, 안전성 등 대부분의 영역에서 성능이 떨어졌다. 여기서 안전성이란, 유해한 정보를 걸러내는 윤리적 영역의 AI 기능을 의미한다. 실제 테스트에서도 성능 하락이 드러났다. 쓰레기 데이터를 학습하지 않은 대형 언어모델은 AI의 추론 능력을 검증하는 아크 챌린지(ARC-Challenge)에서 74.9점을 받았지만 쓰레기 데이터만을 학습한 대형 언어모델의 점수는 57.2점으로 떨어졌다.


연구진은 AI가 계속해서 쓰레기 데이터를 학습하면 일시적인 성능 저하가 아닌 영구적인 성능 손상으로 이어진다는 점도 확인했다. 논문에서는 이를 '인지 구조의 변형'이라고 설명했다. 연구진은 "쓰레기 데이터를 학습한 대형 언어모델에 다시 고품질 데이터를 학습시켰지만 성능이 완벽하게 돌아오지 않았다"고 밝혔다.


데이터의 품질은 AI의 성향도 좌우했다. M1을 기준으로 쓰레기로 분류된 데이터를 학습한 대형 언어모델은 사이코패스 혹은 나르시시즘(자신을 지나치게 애착하거나 관심 보이는 심리 상태), 마키아벨리즘(목적을 위해서는 어떤 수단도 정당하다고 믿는 사상) 등 성향을 나타냈다. SNS에서 접할 수 있는 자극적이거나 선정적인, 유해한 게시물대로 AI의 성향이 결정되는 셈이다. 다만 친화력, 개방성 등 일부 항목에서는 긍정적인 결과를 나타내기도 했다. 고품질 데이터를 학습한 대형 언어모델은 비교적 온건한 반응을 보였다.


연구진은 대형 언어모델 브레인 로트의 원인으로 사고 생략(Thought Skipping)을 지목했다. 쓰레기 데이터를 학습한 대형 언어모델은 복잡한 문제가 주어질 때 중간 단계를 생각하지 않고 곧바로 결과부터 도출했다. 이 때문에 장문의 맥락, 논리적 연결성이 필요한 상황에서 더 수준 낮은 답변을 내놓았다. 연구진은 논문을 통해 "대형 언어모델이 점점 더 많은 인터넷상 데이터와 언어를 학습하고 있다"며 "피해를 막기 위해 신중한 데이터 분류와 대형 언어모델의 품질 관리가 필요하다"고 설명했다.


AD

숏폼 콘텐츠 등 자극적인 정보를 전달하는 짧은 영상이 인간에게도 악영향을 미친다는 연구 결과는 계속 나오고 있다. 컬럼비아대 의대 연구팀은 2021년 동영상을 정기적으로 장시간 시청하면 뇌에 강한 자극을 줘 기억력, 추리능력이 감퇴한다는 내용의 연구를 발표했다. 이건우 바른ICT연구소 교수는 논문을 통해 "인스타그램 릴스와 유튜브 쇼츠 같은 숏폼 콘텐츠가 사용자의 온라인 영상시청 시간을 증가시켰다"며 "2021년 숏폼 콘텐츠 도입이 20대의 전반적인 스마트폰 과의존 위험군 증가에 직·간접적으로 영향을 미쳤다"고 설명했다.




공병선 기자 mydillon@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 26.02.1211:20
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락

    "인근 신축 아파트 33평(전용면적 84㎡)이 전에는 24억원에 호가가 형성됐어요. 그런데 양도세 중과 발표가 나오고 21억5000만원에 매물이 나왔고 이젠 21억원에라도 팔겠다고 하네요."(서울 양천구 신정동 A공인) 정부의 다주택자 양도세 중과 방침이 확정된 이후 시장에선 체감할 만큼 다주택자 매물이 풀리고 있다. 수억원씩 호가를 낮춰 내놓거나 세입자가 있어 당장 정리하기 어려운 경우엔 위로금 명목의 웃돈을 주고 매각하

  • 26.02.1211:00
    2월 주택사업자 경기 전망 대폭 개선…"수도권 중심 가격 상승 기대"
    2월 주택사업자 경기 전망 대폭 개선…"수도권 중심 가격 상승 기대"

    서울을 비롯한 수도권의 주택 매매 가격 상승세가 이어지면서 주택사업자들의 경기 전망이 큰 폭으로 개선됐다. 주택산업연구원은 주택사업자를 대상으로 설문조사한 결과, 2월 주택사업경기전망지수는 전월 대비 15.3포인트 상승한 95.8로 집계됐다고 12일 밝혔다. 수도권의 경우 11.9포인트 올라 107.3으로, 비수도권은 16.0포인트 상승한 93.3으로 전망됐다. 해당 지수가 기준선인 100을 넘으면 주택사업 경기가 좋아질 것으로

  • 26.02.1107:00
    "국가가 부동산 개발 판 깔았다"…1·29 대책에 업계 '새 사업 검토'
    "국가가 부동산 개발 판 깔았다"…1·29 대책에 업계 '새 사업 검토'

    정부의 1·29 도심 주택공급 대책에 부동산개발업계가 새 사업 검토로 들썩이고 있다. 정부가 용산국제업무지구 등 공공 유휴부지 10여곳과 노후청사 34개소 위치 및 착공 일정을 공개하자 인근 민간 유휴부지까지 개발 동력이 생길 것이라는 판단에서다. 지난해까지 악성 프로젝트파이낸싱(PF) 정리에 묶여 있던 업계가 올해를 기점으로 규모 검토와 사업성 분석에 나서고 있다는 게 현장 분위기다. "규모 검토 이미 시작…PF사태

  • 26.02.0713:56
    다음 주 3492가구 공급 예정…1분기 서울 분양 2002년 이후 최다
    다음 주 3492가구 공급 예정…1분기 서울 분양 2002년 이후 최다

    다음 주에는 전국 2개 단지서 총 3492가구가 공급된다. 7일 부동산R114에 따르면 2월 둘째 주에는 전국 2개 단지 총 3492가구(일반분양 901가구)가 공급된다. 이는 전주 1194가구와 비교할 때 2298가구 늘어난 수치다. 단지별로 인천 남동구 간석동 '포레나더샵인천시청역'과 부산 해운대구 재송동 'e편한세상센텀하이베뉴'에서 청약을 진행한다. 포레나더샵인천시청역은 지하 4층에서 지상 최고 35층, 총 24개동, 전용면적 39∼84

  • 26.01.2411:40
    다음 주 줄어든 물량…전국 3개 단지서 184가구 분양
    다음 주 줄어든 물량…전국 3개 단지서 184가구 분양

    1월 넷째주 분양 시장이 한산한 모습이다. 전국 3개 단지서 총 184가구가 분양에 돌입한다. 24일 부동산R114에 따르면 1월 넷째 주에는 전국 3개 단지 총 184가구(일반분양 156가구)가 공급된다. 이는 전주 3260가구와 비교할 때 3076가구 줄어든 수치다. 다음 주 제주 서귀포시 서홍동 '형남아파트6차', 경기 김포시 양촌읍 '여기가(장애인자립특화형공공임대)' 등에서 청약을 진행한다. 형남아파트6차는 지하 1층∼지상 최고 8층

  • 26.02.0307:05
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:04
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:03
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:02
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:01
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0511:23
    박원석 "전한길, 이석기보다 훨씬 더 위험"
    박원석 "전한길, 이석기보다 훨씬 더 위험"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금·오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 박수민 PD■ 출연 : 박원석 전 국회의원(2월4일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 소종섭의 시사쇼 시작하겠습니다. 오늘은 박원석 전 의원과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 박원석 : 네, 안녕하십니까. 소종섭 : 오늘 장

  • 26.02.0314:25
    장성철 "한동훈의 알파와 오메가는 배지"
    장성철 "한동훈의 알파와 오메가는 배지"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 장성철 공론센터 소장(2월 2일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 장성철 공론센터 소장과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 이재명 대통령 SNS 정치, 지난주 토요일부터 오늘 오전까지 9개를 올렸습니다.

  • 26.01.2907:47
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'

    김민석 국무총리와 정청래 더불어민주당 대표가 '장군멍군'을 하고 있다. 보이지 않는 힘겨루기가 한창이다. 올 8월 전당대회를 향한 움직임이다. '8월 전대'는 누가 당 대표가 되느냐를 넘어 여권의 권력 지형을 가르는 의미가 있다. 정 대표가 연임에 성공한다면 그의 정치적 힘은 지금보다 더 커진다. 여권 내 위상이 올라가는 것도 당연하다. 2028년 국회의원 선거의 공천권을 쥐기 때문이다. 김민석 국무총리가 대표가 된다면

  • 26.01.2811:24
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"

    여당인 더불어민주당 내 긴장감이 높아가는 흐름이다. '명청대전'이라는 말이 나오더니 최근에는 최고위원회에서 직접 언쟁을 주고받았다. 일부 최고위원들이 회의에 불참하는 일도 벌어졌다. 8월 전당대회를 앞둔 세력 격돌이 서서히 본격화하는 모양새다. 이언주 더불어민주당 수석최고위원은 그 한가운데 있다. 최근 이 수석최고위원과 두 차례 인터뷰했다. 지난 21일 '소종섭의 시사쇼'에 출연해 1시간 인터뷰했고, 27일엔 전화

  • 26.01.2611:31
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 서용주 맥정치사회연구소장, 윤희석 전 국민의힘 대변인(1월 22일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까? 소종섭의 시사쇼 시작하겠습니다. 서용주 맥 정치사회연구소장님과 윤희석 전 국민의힘 대변인, 두 분 모시고 최근 여


다양한 채널에서 아시아경제를 만나보세요!

위로가기