본문 바로가기
bar_progress

글자크기 설정

닫기

코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트]

시계아이콘03분 13초 소요
숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기 글자크기

⑧ AI 인식 한계 결정 짓는 '트레이닝 데이터'
의료진 백신 배제, 여권사진 판독 인종차별 등
어떤 데이터 학습시키는지에 품질(결과) 달려

편집자주실패를 살펴보는 것은 성공으로 가는 지름길입니다.
'AI오답노트'는 AI와 관련한 제품과 서비스, 기업, 인물의 실패 사례를 탐구합니다.



"Garbage In, Garbage Out."

데이터가 쓰레기면, 그 어떤 천재나 최고의 분석 시스템을 갖다놔도 결과물은 쓰레기에 불과합니다.


통계학, 데이터사이언스 등 데이터를 다루는 분야의 격언이죠. 얼마나 양질의 데이터를 갖고 있느냐가 결과의 품질을 좌우한다는 의미입니다.


인공지능(AI) 영역에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. AI는 본질적으로 주어진 데이터를 기반으로 학습하고, 연산하고, 결과를 출력하는 시스템이기 때문이죠. 데이터의 품질과 신뢰성은 AI 시스템의 성능과 직결됩니다. AI가 초래하는 수많은 실수와 오류 또한 많은 부분이 데이터에서 기인합니다. 데이터에 대한 집중적인 탐구가 필요한 배경이 여기에 있습니다.


세 가지 데이터 : 트레이닝 데이터·입력 데이터·피드백 데이터
코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트] 백신과 주사기. 게티이미지뱅크
AD

AI 분야에서 '데이터'는 너무도 중요한 주제이기 때문에, 좀 더 자세히 들여다볼 가치가 있습니다. 특히 AI를 예측 기계라는 관점에서 볼 때, 데이터는 크게 세 가지로 구분할 수 있습니다.


▶트레이닝 데이터(Training Data) : AI 모델이 학습하는 기초 데이터

▶입력 데이터(Input Data) : 실제 사용 환경에서 시스템에 입력되는 데이터

▶피드백 데이터(Feedback Data) : 시스템의 성능을 평가하고 개선하는데 사용되는 데이터


오늘은 셋 중에서 트레이닝 데이터를 먼저 살펴볼까 합니다. 트레이닝 데이터는 AI의 '기초 체력'을 결정짓는 핵심 요소로, 시스템의 성능과 신뢰성에 지대한 영향을 미칩니다.


코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트]

AI에 뭔가를 물어봤을 때, AI가 대답을 내놓으려면 가장 먼저 학습(Training)을 해야 합니다. 위에서 언급했다시피, AI는 주어진 데이터를 기반으로 학습하고 그 결과물을 출력하는 것이기 때문이죠. 그런 점에서 트레이닝 데이터는, 마치 학생이 맨 처음 보고 공부하는 교과서와 비슷합니다.


예를 들어, 개와 고양이 사진 중에서 무엇이 개와 고양이인지 알아맞히는 AI 모델을 만든다고 해보죠. 일단 트레이닝 데이터가 필요합니다. 사진마다 정답 라벨이 달린 수천장의 고양이 사진, 수천장의 개 사진을 준비합니다. 즉 1000개의 사진은 ‘고양이’라는 정답을, 나머지 1000개의 사진은 ‘개’라는 정답을 갖고 있습니다. AI에 2000장의 이미지를 주면, AI는 “고양이는 이런 특징이 있구나”, “개는 이런 특징이 있구나”하고 패턴을 읽어냅니다.


2000장의 사진으로 학습한 AI는 가끔 틀릴 수도 있습니다. 그래서 2000장, 3000장의 개·고양이 이미지 데이터를 더 주고 학습량을 늘립니다. 그렇게 학습량이 늘어날수록 AI는 개와 이미지를 더 잘 구별할 수 있게 되고, 정확도도 높아지죠. 그러다 보면 어느 순간 완전히 새로운 이미지가 들어와도 개인지, 고양이인지 맞힐 수 있게 됩니다.


코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트]

이미지가 아닌 텍스트도 트레이닝 데이터가 될 수 있습니다. 스팸 메일과 정상 메일을 구별해내는 AI 모델을 만든다고 가정해보죠. 여기서도 마찬가지로, ‘스팸’ 라벨이 붙은 1000개의 이메일, ‘정상’ 라벨이 붙은 1000개의 이메일 샘플이 있습니다. 스팸 이메일에는 ‘큰돈을 벌 수 있다’는 식의 광고성 멘트, 출처가 확인되지 않은 링크(URL), 송금 요구 문구(계좌번호) 등이 포함되어 있을 겁니다.


AI 모델은 수천개의 이메일을 보면서 이렇게 배웁니다. “아, 스팸 이메일에는 ‘무료’, ‘일확천금’, ‘바로 전화주세요!’, ‘하루 만에 수익률 500%’, ‘평생 무료!’ 등과 같은 단어가 들어있는 경우가 많구나”. 이렇게 AI 모델은 스팸과 정상 메일을 구별하게 되고, 저런 단어가 들어가 있는 이메일을 쓰레기통으로 보낼 수 있게 되죠.


트레이닝 데이터는 AI의 성능, 결과값에 직접적인 영향을 미칩니다. 트레이닝 데이터의 품질이 좋고 다양할수록, 그 AI 모델의 성능과 신뢰성도 높아집니다. 반대로 말하면, 바로 트레이닝 데이터 때문에 치명적인 오류가 발생하기도 합니다.


코로나 최전방 의료진만 백신을 주지 않은 AI
코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트]

코로나19가 한창이던 2020년 12월, 미국 최고의 의료시설 중 하나인 스탠퍼드 대학병원이 발칵 뒤집어진 일이 있었습니다.


스탠퍼드 메디컬센터는 화이자 백신 5000회 접종분을 수령한 뒤 백신 우선 접종 대상자를 내부 알고리즘에 따라 선정했습니다. 선정 결과가 어땠을까요. 백신과의 전쟁 최전선에서 싸우던 레지던트들과 간호사들이 명단에서 대거 빠졌습니다. 너무도 황당한 결과였죠.


1300명 의료진 중 백신을 맞은 사람은 7명에 불과했습니다. 코로나 환자 치료를 전담해온 전공의들은 항의 시위가 벌어지는 건 당연했습니다.


원인을 분석해보니 트레이닝 데이터가 문제였습니다. 레지던트와 간호사의 나이, 업무영역, 환자 접촉 빈도 등만을 기계적으로 고려했기 때문입니다. 실제로는 레지던트와 간호사들이 환자들과 가장 많이 접촉하는 의료진임에도 불구하고, 데이터로만 판단해 발생한 심각한 오류였죠.


여권 사진 검증 모델의 인종차별 논란
코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트] 뉴질랜드에서 발생한 여권 사진 판독기 인종차별 논란과 그 당사자(오른쪽) 리처드 리. 로이터통신

영국에서는 여권 사진 검증 시스템이 인종차별 논란을 불러일으켰습니다. 흑인의 여권 사진에만 유독 부적절, 오류라 판독하는 경우가 많았기 때문입니다. 심지어 “눈을 뜨고 있어야 합니다”라는 메시지도 보냈습니다.


이는 알고리즘이 다양한 인종의 얼굴 특징을 제대로 학습하지 못한 결과였습니다. 학습에 사용된 사진의 대부분이 백인 얼굴의 데이터였던 겁니다.


같은 해 뉴질랜드에서도 비슷한 일이 있었습니다. 호주 멜버른에서 유학 중이던 뉴질랜드계 아시아인 20대 남성 리처드 리는 여권 갱신을 위해 뉴질랜드 여권 관리국의 시스템에 개인정보를 입력했습니다. 요청받은 정보를 모두 꼼꼼히 정확히 입력하고 제출했는데, 연신 오류가 발생했다며 접수가 되질 않았습니다. 오류 메시지를 살펴본 그는 허탈한 웃음을 감출 수 없었습니다. “제출된 사진은 눈을 감고 있어서 여권 사진 기준에 적합하지 않습니다.”


뉴질랜드 여권 담당국은 “흰 눈동자가 많이 보이지 않아 판독 시스템이 오류를 일으켰던 것 같다”고 해명했지만, 인종차별 논란으로 홍역을 치러야 했죠.


이후 리처드 리는 언론 인터뷰에서 “인종차별을 당했다고 생각하지 않는다”며 대범하게(?) 웃어넘겼다고 합니다. 그는 “그건 단지 로봇이었어요. 기분도 나쁘지 않아요. 저는 원래 눈이 작았고, 얼굴 인식 기술이 아직 정교하지 않았던 것이라 생각합니다”라고 말했습니다.


트레이닝 데이터, AI의 인식론적 한계를 결정 …데이터 다양성은 필수
코로나 의료진은 왜 백신을 못 받았을까 [AI오답노트]

위와 같은 사례들은 트레이닝 데이터의 중요성과 함께 잊지 말아야 할 교훈을 줍니다.


데이터의 양 자체도 중요하지만, 트레이닝 데이터는 실제 세계의 다양성을 반영해야 한다는 겁니다. 특정 인종, 성별, 연령, 패턴 등이 과다대표되거나 과소대표되지 않도록 항상 주의해야 한다는 것입니다. 데이터를 많이 수집하는 것에만 그쳐선 안 됩니다. 수집 과정에서 의도치 않게 발생할 수 있는 편향과 오차를 항상 의식해야 합니다. 다양한 이해관계자가 참여하는 데이터 검증 프로세스를 구축할 수 있겠죠. 또한 정기적인 데이터 품질 평가 및 편향성 검사를 실시하는 방법도 적극 고려해볼 수 있습니다.


AD

트레이닝 데이터의 문제는 단순히 기술적인 이슈에만 그치지 않습니다. 사회적 책임과 윤리적 고려가 필요한 복합적인 과제이자, 기업의 명운을 흔드는 리스크가 될 수도 있습니다. 트레이닝 데이터 수집 단계부터 신중하고 체계적인 접근이 필요한 이유입니다.

다음 연재 예고
⑨스티커 한장에 달린 인간의 목숨 (12월 21일)
⑩엄마도 몰라본 내얼굴, 아이폰은 알아보네 (12월 28일)
⑪MS 빙(Bing)이 구글을 못 이기는 이유 (12월 29일)



김동표 기자 letmein@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 25.06.2306:50
    ⑤'1호 VC' 아주IB투자, 올해 바이오 회수 눈길
    ⑤'1호 VC' 아주IB투자, 올해 바이오 회수 눈길

    편집자주이재명 정부는 적극적인 벤처 육성 의지를 보이고 있다. 대대적인 규제 완화와 예산 확대가 예상된다. 벤처캐피털(VC)이 주목받고 있다. 이들이 향후 벤처 육성 과정에서 핵심적인 역할을 할 것으로 보이기 때문이다. 특히 상장 VC들에 관심이 쏠린다. 이들 상장 VC는 앞서 벤처 예산이 급증했던 2021년에 일제히 사상 최고가를 기록하며 투자자들의 관심을 한 몸에 받은 바 있다. 이에 아시아경제는 주요 상장 VC들의 강점

  • 25.06.2006:40
    ④ 유니콘 '탑승자' 아닌 '동반자', 캡스톤파트너스
    ④ 유니콘 '탑승자' 아닌 '동반자', 캡스톤파트너스

    편집자주편집자주 = 이재명 정부는 적극적인 벤처 육성 의지를 보이고 있다. 대대적인 규제 완화와 예산 확대가 예상된다. 벤처캐피털(VC)이 주목받고 있다. 이들이 향후 벤처 육성 과정에서 핵심적인 역할을 할 것으로 보이기 때문이다. 특히 상장 VC들에 관심이 쏠린다. 이들 상장 VC는 앞서 벤처 예산이 급증했던 2021년에 일제히 사상 최고가를 기록하며 투자자들의 관심을 한 몸에 받은 바 있다. 이에 아시아경제는 주요 상장

  • 25.06.1906:52
    ③미래에셋벤처, 新정부 AI정책 최대 수혜주로 부상
    ③미래에셋벤처, 新정부 AI정책 최대 수혜주로 부상

    편집자주이재명 정부는 적극적인 벤처 육성 의지를 보이고 있다. 대대적인 규제 완화와 예산 확대가 예상된다. 벤처캐피털(VC)이 주목받고 있다. 이들이 향후 벤처 육성 과정에서 핵심적인 역할을 할 것으로 보이기 때문이다. 특히 상장 VC들에 관심이 쏠린다. 이들 상장 VC는 앞서 벤처 예산이 급증했던 2021년에 일제히 사상 최고가를 기록하며 투자자들의 관심을 한몸에 받은 바 있다. 이에 아시아경제는 주요 상장 VC들의 강점

  • 25.06.1806:50
    ②유니콘 성장 이끈 LB인베스트먼트…AI 집중 투자
    ②유니콘 성장 이끈 LB인베스트먼트…AI 집중 투자

    편집자주이재명 정부는 적극적인 벤처 육성 의지를 보이고 있다. 대대적인 규제 완화와 예산 확대가 예상된다. 벤처캐피털(VC)이 주목받고 있다. 이들이 향후 벤처 육성 과정에서 핵심적인 역할을 할 것으로 보이기 때문이다. 특히 상장 VC들에 관심이 쏠린다. 이들 상장 VC는 앞서 벤처 예산이 급증했던 2021년에 일제히 사상 최고가를 기록하며 투자자들의 관심을 한 몸에 받은 바 있다. 이에 아시아경제는 주요 상장 VC들의 강점

  • 25.06.1706:50
    BTS 데뷔 전 하이브에 40억 투자 '1080억' 회수한 SV인베…또 대박 날까①
    BTS 데뷔 전 하이브에 40억 투자 '1080억' 회수한 SV인베…또 대박 날까①

    편집자주이재명 정부는 적극적인 벤처 육성 의지를 보이고 있다. 대대적인 규제 완화와 예산 확대가 예상된다. 벤처캐피털(VC)이 주목받고 있다. 이들이 향후 벤처 육성 과정에서 핵심적인 역할을 할 것으로 보이기 때문이다. 특히 상장 VC들에 관심이 쏠린다. 이들 상장 VC는 앞서 벤처 예산이 급증했던 2021년에 일제히 사상 최고가를 기록하며 투자자들의 관심을 한몸에 받은 바 있다. 이에 아시아경제는 SV인베스트먼트를 시작

  • 25.06.2407:00
    전문가 한목소리 "인사청문제도 이제는 바꿔야"
    전문가 한목소리 "인사청문제도 이제는 바꿔야"

    편집자주인재를 적재적소에 활용하는 것은 국가운영의 성패와 직결한다. 인사가 만사라는 말은 괜히 나온 얘기가 아니다. 문제는 인재를 쓰고 싶어도 쓰기 어려운 현실이다. 인재를 찾아내 중요한 역할을 맡겨 보려 해도 본인이 고사하는 경우가 허다하다. 공직자 검증을 위해 마련된 제도가 인재 등용을 차단하고 있는 현실과 무관하지 않다. 사생활 검증이 역량 검증에 우선해서는 곤란하다. 공직자 본인은 물론이고, 배우자와 자

  • 25.06.2307:00
    윤상현 "국가 백년대계 걸린 청문회, 초당적 개혁 나서야"
    윤상현 "국가 백년대계 걸린 청문회, 초당적 개혁 나서야"

    편집자주인재를 적재적소에 활용하는 것은 국가 운영의 성패와 직결한다. 인사가 만사라는 말은 괜히 나온 얘기가 아니다. 문제는 인재를 쓰고 싶어도 쓰기 어려운 현실이다. 인재를 찾아내 중요한 역할을 맡겨 보려 해도 본인이 고사하는 경우가 허다하다. 공직자 검증을 위해 마련된 제도가 인재 등용을 차단하고 있는 현실과 무관하지 않다. 사생활 검증이 역량 검증에 우선해서는 곤란하다. 공직자 본인은 물론이고, 배우자와

  • 25.06.2007:00
    정성호 "최고의 에이스가 국정운영 참여할 수 있게 해야"
    정성호 "최고의 에이스가 국정운영 참여할 수 있게 해야"

    편집자주인재를 적재적소에 활용하는 것은 국가운영의 성패와 직결한다. 인사가 만사라는 말은 괜히 나온 얘기가 아니다. 문제는 인재를 쓰고 싶어도 쓰기 어려운 현실이다. 인재를 찾아내 중요한 역할을 맡겨 보려 해도 본인이 고사하는 경우가 허다하다. 공직자 검증을 위해 마련된 제도가 인재 등용을 차단하고 있는 현실과 무관하지 않다. 사생활 검증이 역량 검증에 우선해서는 곤란하다. 공직자 본인은 물론이고, 배우자와 자

  • 25.06.1907:00
    野일 땐 '강화' 與일 땐 '침묵'…개선 없는 인사청문회
    野일 땐 '강화' 與일 땐 '침묵'…개선 없는 인사청문회

    인사청문회 무용론이 수년째 반복되고 있지만 국회 차원에서의 개선 논의는 미미하다. 인사청문회 제도가 운영된 지난 25년 동안 200건이 넘는 개정안이 발의됐으나 통과된 것은 단 8건에 불과하다. 야당일 때는 인사청문회 제도 강화를 외치다가도, 여당이 되면 소극적으로 변하는 한국 정치 지형 탓이다. 검증보다는 흠집 내기에 치중하는 인사청문회가 지속되는 이유다. 19일 의안정보시스템에 따르면 2000년 6월 인사청문회법이

  • 25.06.1907:00
    사전검증 철저한 美…한국은 '고무줄' 잣대
    사전검증 철저한 美…한국은 '고무줄' 잣대

    편집자주인재를 적재적소에 활용하는 것은 국가운영의 성패와 직결한다. 인사가 만사라는 말은 괜히 나온 얘기가 아니다. 문제는 인재를 쓰고 싶어도 쓰기 어려운 현실이다. 인재를 찾아내 중요한 역할을 맡겨 보려 해도 본인이 고사하는 경우가 허다하다. 공직자 검증을 위해 마련된 제도가 인재 등용을 차단하고 있는 현실과 무관하지 않다. 사생활 검증이 역량 검증에 우선해서는 곤란하다. 공직자 본인은 물론이고, 배우자와 자

  • 25.06.2308:55
    이언주 "이대로 가면 산업공동화 위기, 빨리 산업 전환 해야"
    이언주 "이대로 가면 산업공동화 위기, 빨리 산업 전환 해야"

    이언주 더불어민주당 최고위원이 지난 19일 아시아경제 시사 유튜브 'AK라디오'에 출연했다. 3선 의원으로 '경제통'인 이 의원은 민주당 미래경제성장전략위원회 위원장을 맡고 있다. 이 의원은 "지금 한국 경제는 추락 직전 낭떠러지에 있는 것과 같다"고 진단하며 "주력 산업을 빠르게 재구조화해야 한다"고 강조했다. 또 "함부로 증세해서는 안 된다"면서 "민생회복지원금을 빨리 집행해야 한다. 물가 상승을 걱정할 때가 아니다

  • 25.06.2208:00
    추가파병으로 러와 밀착하는 北…中 부담느끼는 이유
    추가파병으로 러와 밀착하는 北…中 부담느끼는 이유

    북한이 러시아에 6000명 규모의 공병 부대를 추가로 파견하기로 하면서 동북아 정세에 새로운 변수가 등장했다. 이미 1만4000여명의 전투 부대를 파병한 상황에서 추가 파병이 이뤄지면 총 2만명 이상의 북한군이 러시아에 파병된다. 국제사회가 대북제재 위반이라며 목소리를 높이는 가운데, 중국도 상당히 불편한 기색을 내비치고 있다는 분석이 나오고 있다. 이번에 파견되는 북한 공병 부대는 전투보다는 점령지 방어에 집중할

  • 25.06.2109:00
    이스라엘의 이란 타격, '라이징 라이언' 작전…北 긴장시킨 이유
    이스라엘의 이란 타격, '라이징 라이언' 작전…北 긴장시킨 이유

    이스라엘이 이란을 대상으로 한 군사작전에 '라이징 라이언(Rising Lion·일어서는 사자)'이라는 작전명을 붙이면서 그 배경과 의미에 관심이 집중되고 있다. 이 작전명은 구약성경 민수기 23장 24절에서 따온 것으로 알려졌다. 해당 구절은 "백성이 암사자 수사자 같이 일어나서 잡힌 것을 먹고 죽은 것의 피를 마시기 전에는 눕지 않을 것이다"라는 내용을 담고 있다. 사자는 고대부터 이스라엘 왕국의 상징이었으며, 이번 작전명

  • 25.06.1506:00
    결별과 화해 반복하는 트럼프와 머스크, 재결합하나
    결별과 화해 반복하는 트럼프와 머스크, 재결합하나

    도널드 트럼프 대통령과 일론 머스크 테슬라 CEO의 관계가 극적인 변화를 겪고 있다. 취임 초기 '브로맨스'로 불릴 정도로 가까웠던 두 사람은 극심한 갈등을 거쳐 최근 다시 화해 국면으로 접어들었다. 이들의 관계 변화는 단순한 개인적 불화를 넘어 미국 정치와 산업계 전반에 큰 파장을 미치고 있다. 트럼프 대통령과 머스크의 관계는 2024년 대선 당시 절정에 달했다. 머스크는 트럼프 대통령을 전적으로 지원하며 선거 승리에

  • 25.06.1408:00
    트럼프가 가로막은 하버드 유학…美 대학 전역으로 퍼지나
    트럼프가 가로막은 하버드 유학…美 대학 전역으로 퍼지나

    트럼프 행정부가 하버드대학교를 겨냥한 전방위적 압박에 나서면서 전 세계 유학생들 사이에 큰 혼란이 일고 있다. 표면적으로는 중국 공산당과의 연계를 문제 삼고 있지만, 실제로는 하버드대의 진보적 성향과 반유대주의 시위에 대한 정치적 공세라는 분석이 지배적이다. 트럼프 행정부는 지난 몇 주간 세 차례에 걸쳐 하버드 대학교 유학생 등록을 막고 비자 발급을 취소하려 했지만, 매번 미국 연방법원의 제동에 부딪혔다. 하


다양한 채널에서 아시아경제를 만나보세요!

위로가기