⑩ AI의 ‘피드백 데이터 리스크’
반복되는 입출력으로 재학습 및 교정
악의적 이용 반복될 땐 위험한 AI로
애플의 아이폰 이용자에겐 얼굴이 열쇠입니다. 스마트폰 전면 상단에 달린 카메라에 얼굴 인식 보안 기술인 ‘페이스ID’가 탑재돼 있어, 폰 잠금 해제부터 결제, 신원인증 등 모든 절차가 간편하죠.
물론 최초 이용을 위해선 사용자의 얼굴을 등록하는 절차를 거쳐야 합니다. 적외선 카메라의 요구에 맞춰 얼굴을 이리저리 돌리며 얼굴을 촬영하게 됩니다. 잠깐의 불편함만 감수하면 앞으론 무척 편해집니다. 카메라는 얼굴 표면의 패턴과 눈과 눈 사이 등 각종 거리를 측정합니다.
3차원 안면 분석과 자체적인 뉴럴 엔진 분석까지 거치기 때문에, 인식률이 매우 높죠. 적외선이기 때문에 밝은 빛이 필요하지도 않아 어두운 곳에서도 잘 작동합니다. “아이폰의 킬러콘텐츠는 페이스ID다”라는 말이 그리 큰 과장은 아닐 겁니다.
페이스ID의 위력은 ‘피드백 데이터’에서 나온다
그런데 잠깐 생각해보면, 사용자의 얼굴은 매일 매 순간 같지 않죠.
안경을 쓸 수도 있고, 아니면 안경테를 바꿀 수도 있죠. 수염을 기르거나, 헤어스타일을 바꾸는 경우도 있고요. 마스크를 쓰기도 하고, 때론 화장법을 달리할 수도 있습니다. 그럴 때마다 얼굴을 새로 등록해야 할까요? 아닙니다. 그래도 잘 작동합니다. ‘페이스ID가 킬러콘텐츠’라는 말이 괜히 있는 게 아니죠.
페이스ID는 이용자의 안면에 약간씩 변화가 생길 때마다, 달라진 패턴을 파악합니다. 특히 간혹 나오는 ‘인식 실패’는 가장 소중한 데이터입니다. 비밀번호를 거쳐 재확인된 이용자의 얼굴이, 그 전의 얼굴과 동일하다는 피드백을 얻기 때문이죠.
그러면 내장된 알고리즘은 새로운 외모와 이전에 등록된 얼굴을 연관 지어 재학습합니다. 수십번, 수백번의 인식 성공과 실패가 피드백 데이터가 되는 겁니다. 이 피드백 데이터가 쌓이면 쌓일수록, 페이스ID의 인증 성공 확률은 더욱 높아지죠.
테슬라 자율주행 사고율이 감소하는 이유
AI 모델이 수많은 트레이닝 데이터 학습을 마쳤다고 해서 AI 모델 개발이 끝난 게 아닙니다. 출시 이후에도 피드백 데이터로 꾸준히 학습해야 합니다. 트레이닝 데이터(이용자의 첫 얼굴)로 학습을 시키고, 입력 데이터(지금 얼굴)를 넣으면 출력(인증 성공 또는 실패)이 나오죠. 출력값을 매번 흡수해서 정확도를 향상시킵니다.
상황과 환경은 끊임없이 변화합니다. 그렇기 때문에 AI 모델의 정확성을 유지하려면, 피드백 데이터를 지속적으로 공급하면서 모델을 업데이트해야 합니다. 우리가 일상에서 매일 만나는 내비게이션이나, 쇼핑앱의 상품 추천도 마찬가지입니다.
도로가 새로 개통되거나, 아니면 도로가 막히거나 하는 등 새로운 데이터가 발생하면 그걸 즉시 흡수해야 하죠. 그러지 않고 옛날 데이터로만 최적화된 경로를 안내한다면 이용자들은 더이상 그 내비게이션 앱을 이용하지 않을 겁니다.
테슬라의 자율주행 기능도 차량에 달린 8개의 카메라가 받아들이는 데이터로 피드백을 받습니다. 기존에 설계한 알고리즘에 더해서 새로운 정보를 받아들이고, 더 나은 결정을 하게 되죠. 테슬라 차량의 사고율은 해마다 줄어들고 있습니다. 최초 학습된 데이터로만 주행한다면 불가능할 일이죠.
내게 꼭 필요한 상품을 잘 추천해주는 쇼핑앱도 마찬가지입니다. 최초 가입 때 입력했던 나이, 성별, 지역, 구매 이력만으로는 부족합니다. 달라진 쇼핑 패턴, 주기, 시간대 등의 데이터가 필요하죠. 그래야 소비자에게 딱 맞는 추천을 할 수 있게 됩니다.
"페미들은 모두 지옥으로!" 차별·혐오주의자가 된 챗봇
피드백 데이터의 중요성은 실패 사례에서도 잘 드러납니다.
2016년 마이크로소프트(MS)는 챗봇 서비스 테이(TAY)를 출시했습니다. 이용해본 사람은 많지 않을 겁니다. 출시 16시간 만에 서비스를 닫았거든요.
챗봇, 즉 이용자와 자유롭게 대화를 주고받는 서비스였던 테이는 트위터나 메시징 서비스 킥 등에서 이용할 수 있었습니다. 이용자와 자연스럽게 대화하면서 나오는 텍스트 데이터를 분석하고, 적절한 응답을 하는 구조였죠. 즉 사람과의 대화를 피드백 데이터로 두고 있었죠. 더 많이 대화할수록 더 많은 데이터가 수집되어 대화가 더 자연스러워질 수 있었죠.
하지만 테이는 곧 위험한 상황에 직면합니다. 서비스 공개 직후 입소문이 나면서, 백인 우월주의자·여성혐오세력·무슬림반대 세력 등이 모이는 익명 온라인 게시판에 “테이가 차별 발언을 하도록 훈련시키자”는 제안이 올라온 겁니다. 대화 상대방을 가리지 않았던 테이는, 이내 이들과 말을 섞게 됩니다. 이들은 “내가 하는 말을 따라해보라”면서 차별적이고 혐오적인 발언을 계속 했습니다.
불과 몇 시간 만에 테이는 인종차별주의자, 성차별주의자, 정치적 극단주의자로 변했습니다. 대화에서 나온 내용을 학습하고 모방하도록 설계된 구조의 한계가 극명하게 드러난 순간이었죠. 결국 MS는 테이 운영을 중지하고 공개 사과해야 했습니다.
테이의 사례는 필터링 되지 않은 피드백 데이터의 위험성을 상기시켰습니다. 미국의 IT전문매체 더버지는 “(테이는)모델링, 정리 및 필터링된 공개 데이터를 사용해 구축됐지만, 챗봇이 출시된 이후에는 필터링이 사라진 것으로 보인다”고 했습니다. 적절한 입력(사용자와의 대화) 부적절한 대화를 구별하는 보호 장치가 없었다는 지적이죠. 유해한 패턴을 신속히 파악하고, 그러한 정보가 피드백 데이터로 분류되지 않게 필터링하고 큐레이팅을 해야 합니다.
피드백 데이터로 대박 터트린 넷플릭스
피드백 데이터를 받는 건 좋지만, 피드백 데이터의 다양성도 무척 중요합니다. 넷플릭스의 핵심 경쟁력은 ‘추천’입니다. 시청자의 취향에 꼭 맞는 콘텐츠를 추천하죠. 넷플릭스가 이런 경쟁력을 얻기까지는 적잖은 실패가 있었습니다.
한때(2006~2009년) 넷플릭스는 ‘넷플릭스 프라이즈(Netflix Prize)’라는 데이터 예측 대회를 열었습니다. 별점 평가 시스템을 개선하기 위한 목적이었죠. 별점은 이용자들이 콘텐츠 볼 것인가 말 것인가 결정하는 매우 중요한 데이터였습니다. 그렇기에 이용자의 실제 기대와 별점은 최대한 일치해야 했습니다. 예상 별점이 4.5점이길래 봤더니, 이용자는 정작 2.5점짜리라고 평가했다면, 그 이용자는 다시는 예상 별점을 신뢰하지 않을 겁니다. 별점이라는 등대 없이 무수히 많은 콘텐츠의 홍수를 헤매는 이용자는 넷플릭스로부터 멀어질 수도 있습니다. 이건 넷플릭스 입장에선 최악의 상황이죠.
예상 별점과 실제 별점을 일치시키는 건 쉽지 않았습니다. 어떤 이용자들은 예술 영화에는 후하게 별점을 주는데, 오락 영화에는 유독 박했죠. 또 ‘보고 싶은 영화’와 ‘봐야 할 것 같은 영화’를 철저히 구별했습니다. 사회적으로 또는 정치적으로 바람직하다고 여겨지는 영화에 대해서도 높은 별점을 매기는 경향이 있었습니다. 특정 배우가 좋거나 싫다는 이유로 별점을 터무니없이 많이 주거나, ‘별점 테러’를 하는 경우도 있었고요. 별점만으로 이용자의 기대를 충족시키긴 너무도 어려웠습니다.
넷플릭스는 변화를 시도합니다. 새로운 피드백 지표를 도입한 것이죠. 시청 완료율, 시청 지속시간, 몰아보기(binge-watching), 다시보기, 공유, 댓글 등 다양한 데이터를 수집해 추천 알고리즘에 결부시켰습니다. 더 많은 피드백 데이터를 학습하게 된 넷플릭스 추천 시스템은 놀랍도록 진화했죠. 평균 시청 시간이 늘었고, 중도 시청 이탈률도 감소했습니다. ‘추천 콘텐츠가 믿을만하다’는 이용자 인식이 굳어지면서, 추천 콘텐츠의 클릭률도 크게 높아졌죠.
이처럼 피드백 데이터는 AI 모델의 성패를 좌우하는 결정적 요소입니다. 다만 피드백 데이터에 관한 논의는 여기서 끝은 아닙니다. 피드백 데이터 그 자체만큼이나, ‘피드백 데이터 구조’도 중요합니다. 이건 다음 편에서 다뤄보겠습니다.
다음 연재 예고
⑫”파업 의사 따위 AI로 대체하자”는 생각(2024년 1월4일)
김동표 기자 letmein@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>