김동표기자
<i>▷ A병원에서는 매일 45명의 아이가 태어난다.</i>
<i>▷ B병원에서는 15명의 아이가 태어난다.</i>
<i>▷ 아기의 성별은 남녀 각각 50%의 확률이다.</i>
<i>▷ 1년간 하루에 태어난 아기 중 60% 이상이 남자 아이인 날이 있다.</i>
<i>◎ 질문 : 1년간 남자아이가 60% 이상 태어난 날이 더 많은 병원은 어디일까?</i>
태어나는 아기의 수가 많은 A병원일까, 아니면 그 반대인 B병원일까요. 심리학자 대니얼 카너먼과 에이머스 트버스키가 진행한 이 심리학 실험에서 답을 맞힌 사람은 거의 없었다고 합니다.
'매일 45명의 아이가 태어나는 큰 병원이니까, 남자가 더 많이 태어나는 날도 당연히 더 많겠지', 하며 A병원을 답으로 꼽았죠.
그러나 정답은 태어나는 아기의 수가 적은 B병원입니다.
표본의 크기가 클수록 결과가 평균(50%)에 가까울 확률이 크기 때문입니다. 일명 ‘큰수의 법칙’이라고 하죠. 동전 던지기를 생각해보면 더 쉽게 이해할 수 있습니다. 어느 날 동전을 10번 던졌을 때, 앞면이 7번, 뒷면이 3번 나올 수 있죠(70:30). 그러나 100번을 던지면 어떨까요? 60:40 정도의 비율로 나올 수도 있습니다. 던지기 횟수를 1000번, 1만으로 늘리면 그 비율은 50:50에 매우 가까워질 겁니다.
인간은 편향적입니다. 확증 편향(기존에 아는 것과 일치하는 정보만 주목), 집단 사고(조직 다수의 의견에 일치하려는 태도), 후광 효과(일부 긍정·부정적 특성에만 주목해 전체를 못 보는 현상) 등 인간이 가진 편향은 너무도 많죠. 그래서 예측에 실패하곤 합니다. 전문가라면 다를 거라고요? 그렇지 않습니다.
사법부의 예를 들어보죠. 판사는 엄밀한 심사를 통해 보석 결정(보증금을 내거나 보증인을 세우는 대신 감금 상태에서 풀어주는 것)을 내립니다. 미국에서 보석 결정 데이터를 수집해 분석한 의미있는 실험이 있네요. 연구진은 AI를 이용해 용의자가 보석 기간 중 다시 범죄를 저지르거나 도망갈 가능성을 예측하는 알고리즘을 개발했습니다. 결과는 어땠을까요.
AI의 승리였습니다. AI는 피고의 1%를 위험인물로 분류했고, 그중 62%가 범죄를 저지를 것이라 예측했습니다. 판사는 그들 중 거의 절반을 사회로 내보냈습니다. AI의 예상대로 위험인물 62% 중 63%가 범죄를 저질렀습니다. 심지어 5%는 살인 등 강력범죄를 저질렀죠. 판사가 AI의 예측대로 보석 결정을 내렸다면 불의의 사고를 줄일 수 있었을 겁니다.
판사는 법정에서 피고인의 답변 태도, 자세, 외모 등 AI가 수집하지 않은 정보를 이용할 수 있었습니다. 그러나 이는 오히려 독이 되었던 것 같습니다. 인간의 이러한 편향은, AI가 인간보다 더 효율적이고 공정한 결정을 내려줄 거란 기대를 낳습니다. 범죄자 판결 관련 뉴스를 보다 보면 “판사를 AI로 대체하자”는 식의 주장을 담은 댓글을 쉽게 볼 수 있습니다. 편향에 오염되지 않은 순수한 데이터, 객관적 사실에 기반한 판단과 의사결정을 요구하는 목소리는 업계를 가리지 않습니다.
그러나 과연 그럴까요? 사람이 아닌 AI가 내린 결정은 정말로 공평무사할까요?
AI도 편향적입니다. 사람이어서가 아니라, 사람에게 배웠기 때문입니다. AI도 잘못된 데이터로 학습하면 잘못된 판단을 합니다. 미국 형사사법 시스템에서 사용되는 콤파스(COMPAS)는 AI의 편향성을 보여준 대표적 사례입니다. 콤파스는 범죄자의 재범 위험을 예측하는데 사용한 알고리즘입니다. 과거 데이터를 기반으로 예측값을 도출했고, 그에 따라 석방 여부 결정이나 형량 결정 등에 사용됐죠. 콤파스는 법원의 업무를 상당히 줄여줬지만, 그 결과를 두고선 논란이 끊이질 않았습니다. 심각한 편향이 드러났던 겁니다.
재범 예측에서 AI는 흑인 피고인들의 재범 위험을 과대평가했습니다. 반대로 백인 피고인들의 재범 위험은 과소평가했죠. 고위험군으로 예측됐지만 재범하지 않은 흑인의 비율은 44.9%였고, 백인은 23.5%였습니다. 반면 저위험군으로 예측했지만 다시 범죄를 저지른 백인은 47.7%, 흑인은 28.0%였습니다. 인종차별이라는 비판을 피하기 어려운 결과값이었습니다.
세계 최대 전자상거래 업체 아마존은 2022년 기준 154만명을 고용하고 있는 초대형 기업입니다. 인재 채용 과정 자체가 거대한 과제죠. 검토해야 할 서류가 도대체 몇만장일까요. AI 기반 채용 시스템 도입(2014년)은 불가피한 결정이었을 겁니다. 이는 무수히 많은 지원자의 이력서를 자동으로 평가하는 시스템이었습니다. AI는 지난 10년간 아마존에 접수된 이력서와 그 지원자들의 성과 데이터를 기반으로 학습했죠.
안타깝게도 이 시스템은 그리 오래가지 못했습니다. 최종 채용 과정에서 여성을 배제하고 있다는 사실이 밝혀졌기 때문이죠. 이력서에 ‘여대(女大)’라는 단어가 들어있거나, ‘여성 체스 동아리’ 등 ‘여성’이라는 단어가 포함되면 감점을 했죠.
문제는 학습 데이터의 편향이었습니다. 지난 10년간 아마존에 접수된 이력서의 대부분은 ‘남성’의 것이었습니다. ‘우리 회사에 적합한 인재’로 판단된 최종 합격자도 당연히 대부분 남성이었겠죠. AI는 이 패턴을 학습해 남성 지원자를 선호하게 된 것이었습니다. 아마존의 엔지니어들은 문제를 해결해보려고 했지만, 또 어떤 차별적 결과가 나올지 도무지 예상할 수 없었습니다. 이세돌 9단을 이겼던 바둑 AI 알파고가, 특정 상황에서 왜 저런 수를 두는지 알파고 엔지니어들조차 설명하기 어려웠던 이유와 같습니다.
AI 채용 시스템의 경우는 성차별만이 문제가 아닐 수도 있었습니다. 인종차별, 연령주의 등의 문제까지 불거질 가능성이 컸죠. 결국 아마존은 아예 시스템을 폐기해야 했습니다.
AI가 내놓는 결과값은 블랙박스에서 만들어지는 것과 같습니다. 만들어낸 AI가 차별적 판단을 할지 말지는 오직 결과를 봐야만 알 수 있죠. 알고리즘을 설계한 사람조차 그 원리를 이해하기 어렵습니다. 이러한 블랙박스적 속성 때문에, 편향적 결과로 피해를 본 사람이 이를 법적으로 문책하기도 쉽지 않습니다.
AI라고 해서 인간과 달리, 언제나 공평무사한 결정을 내리진 않습니다. 데이터가 편향되고 왜곡되면, AI도 그런 결과를 내놓습니다. 편향에 따른 리스크는 치명적일 수 있습니다. 기업의 경제적 손실은 물론 도덕적 치명타를 날리기도 합니다. AI가 블랙박스라는 이유가, 차별과 편견을 도외시하는 구실이 될 순 없습니다.
하지만 동시에, AI가 차별적일 수 있다는 이유로 AI의 사용과 도입을 피하는 것도 좋은 방법은 결코 아닙니다. 차별의 범위, 빈도를 따지자면 인간이 AI보다 훨씬 차별적일 수 있거든요. 오히려 기업은 AI의 편향성을 인지하고, 다양한 리스크를 예상하면서 리스크를 관리하는 전반적 절차를 단속해야 나가야 합니다. 기획 단계에서부터 운영과정까지 차별과 편향의 가능성을 점검하고 보완해나가면 AI를 통한 생산성 향상은 거두면서 부작용은 최소화할 수 있습니다.
피터 베르데젬 영국 웨스트민스터대 교수는 책 ‘모두를 위한 AI’에서 “기업은 지금보다 AI를 더 많이 활용해 사람을 데이터로 다루게 될”이라고 예상하면서 “그럼에도 알고리즘 편향성에 대한 경각심을 잃어선 안 된다”고 말했습니다.
AI를 통한 채용은 글로벌 기업 세계에선 이미 보편화됐습니다. 미국 정부가 지난해 1월 발표한 자료에 따르면, 미국 기업 83%, 포춘지 선정 500대 기업 99%가 AI를 채용 과정에 활용하는 것으로 조사됐습니다. 2022년 골드만삭스는 인턴 채용에 AI를 활용해 지원자 23만6000명 중 1.5%에 해당하는 3700명을 뽑았습니다. 2014년 아마존 채용 시스템의 부작용과 실패 사례를 학습한, 훨씬 진일보한 AI 알고리즘일 겁니다.