김동표기자
AI 분야에서 말하는 데이터는 크게 트레이닝 데이터, 입력 데이터, 피드백 데이터로 나눌 수 있습니다. 지난주에는 트레이닝 데이터에 대해 살펴봤죠. 이번에는 이야기할 주제는 두번째, 입력 데이터입니다.
기계학습을 마치고 완성된 AI 모델이, 결과값을 내도록 움직이게 하려면 어떤 정보가 입력돼야 합니다. 총알이 발사되려면 방아쇠를 당기는 힘이 필요한 것과 같죠. 그러나 입력 데이터 또한, 트레이닝 데이터와 마찬가지로, 잘못 다루어진다면 심각한 오류나 치명적인 결과로 이어질 수 있습니다.
운전자를 위험에 빠뜨리기 위해서는 거대한 흉기나 도구가 필요하지 않습니다. ‘스티커 한 장’이면 충분할 수 있습니다.
2017년 미국 워싱턴대학 연구진은 교통 표지판에 스티커를 붙여, 자율주행차를 오작동시킬 수 있다는 결과를 발표했습니다. 연구팀은 도로 교통 표지판에 스티커를 부착했습니다. 자율주행차량의 이미지 인식 기능을 교란하기 위한 목적이었죠.
'정지(STOP)' 표지판에 단순히 'LOVE' 스티커를 붙이는 것만으로도 충분했습니다. 자율주행차의 이미지 인식 알고리즘은 100% 반응했고, 해당 표지판을 정지가 아닌, '속도제한'으로 인식했습니다.
우회전 표지판에도 비슷한 실험을 해봤습니다. 결과는 크게 다르지 않았습니다. 차량 절반 이상이 우회전을 정지로 인식해 도로를 막았죠.
이외에도 유사한 실험들이 행해졌는데, 역주행 사례까지도 있었습니다. 자율주행차의 '눈'이라고 할 수 있는 카메라 센서가 받아들이는 입력 데이터를 교란하는 것만으로도, 학습된 시스템이 완전히 다른 판단을 내리게 된 것입니다. 기존의 교란 방법이 유무선 네트워크나 단말기 등이 갖고 있는 취약점을 이용한 것이라면, 이 방법은 머신러닝 알고리즘이 내재하고 있는 취약점을 이용했다는 점에서 차이가 있습니다.
당뇨병 환자는 주기적으로 인슐린을 체내에 공급받아야 합니다. 예전에는 직접 주사를 하기도 했지만, 최근에는 인슐린 펌프라는 의료보조기구를 통해 편리하게 관리하죠. 작고 휴대가 가능해 주머니, 가방 등에 넣고 다닐 수 있습니다. 펌프는 피부의 작은 관에 연결돼 있는데, 환자의 혈당, 건강 상태를 실시간으로 파악해 인슐린을 자동 공급합니다. 하루에 수시로 주사를 하는 것보다 훨씬 편리할 뿐만 아니라, 혈당 조절에도 탁월하다고 합니다.
인슐린 펌프는 '당뇨병 환자의 상황에 따라 적절한 양의 인슐린을 산출하고 공급하는 법'을 학습한 상태입니다. 그렇다면 실시간으로 체크된 환자의 혈당과 건강상태가 입력 데이터죠. 학습된 데이터에 따라, 환자가 어떤 상태에 도달하면 자동으로 인슐린을 공급하게 되겠죠.
이렇게 편리한 인슐린 펌프이지만, 입력 데이터의 오염은 치명적 결과를 초래할 수 있습니다. 세계적인 보안업체 맥아피(McAfee) 연구진은 인슐린 펌프의 심각한 보안 취약점을 발견해 2019년 공개했습니다.
환자의 혈당, 건강 데이터는 블루투스를 통해 전송됩니다. 문제는 여기에 적절한 암호화가 되어있지 않았던 겁니다. 악의적인 해커가 인슐린 펌프의 공급량을 조작할 수 있다는 의미입니다. 환자의 혈당과 건강상태를 조작하면, 인슐린 펌프는 과도한 또는 너무 적은 인슐린을 공급하게 되죠. 그 결과는 문자 그대로 치명적입니다. 연구진에 따르면 약 90미터 거리에서도 인슐린 펌프를 조작할 수 있었다고 합니다.
이러한 사례들은 AI 시스템에서 입력 데이터 관리가 얼마나 중요한지를 보여줍니다. 입력 데이터는 알고리즘이 실시간으로 의사결정을 내리는 데 사용하는 정보입니다. 이 데이터가 손상되거나 조작되면, AI의 출력, 결과값은 신뢰할 수가 없게 됩니다. 당뇨병 환자, 운전자의 사례처럼 심지어 인간의 목숨이 위험해질 수도 있죠.
입력 데이터로 인한 위험과 실패를 예방하려면, 강력한 데이터 검증 시스템이 필요합니다. 이상 탐지 알고리즘을 내재해서 이상치, 결측치를 자동으로 보완하는 방법을 마련할 수도 있습니다. 가령 환자의 체온이 40도를 넘어서면 오류 가능성으로 인지해 다른 알림을 주는 시스템을 만들 수 있죠.
입력 데이터 조작에 따른 위험과 해킹 위험은 기술 발전과 함께 상대적으로 그 위험성이 덜해진 면이 있습니다. 입력 데이터와 관련한 논의에서 빼놓지 말아야 할 키워드는 '접근성'입니다.
알고리즘이 효과적으로 작동하려면 좋은 입력 데이터를 확보하는 것도 중요합니다. 특정 의료 분야에서는 AI를 활용한 진단 서비스가 이미 개발된 상태입니다. 그중에는 질병 진단 정확도가 매우 높고, 적절한 치료법을 추천할 수도 있죠. 그러나 '입력 데이터에 대한 접근성'은 이러한 서비스의 성공을 막고 있습니다.
가령 환자 개인의 당뇨 정보를 '개인정보보호 위반'이라는 이유로 수집을 금지한다면, 인슐린 펌프 기기는 제 기능을 할 수 없죠. 2019년 MIT의 연구결과는 "환자 데이터에 대한 접근성이 낮음으로 인해 의료 AI 애플리케이션 개발이 크게 방해될 수 있다"고도 지적했습니다. 충분한 입력 데이터가 없으면 AI가 신뢰할 수 있는 예측을 내놓거나 의미 있는 결과를 출력할 수 없다고 강조했죠.
물론 "개인정보보호 따위는 필요 없다"는 식의 주장으로 이어져선 안 됩니다. 개인정보보호는 AI의 발전만큼, 혹은 그 이상으로 중요한 주제입니다. 개인정보보호와 데이터 접근성 사이의 균형을 찾는 것이 또 하나의 숙제이죠.