美 스탠퍼드대 'AI 인덱스 보고서 2025'
GPT-4, 인간 의사보다 진단 정확도 16%P↑
인공지능(AI) 실력이 의료 진단 분야에서도 인간을 능가했다는 보고서가 나왔다. 오픈AI의 최신 AI 모델인 GPT-4가 인간 의사보다 뛰어나다는 것이다. 'AI 닥터' 출현이 가시권에 들어왔다는 평가가 나온다.
8일(현지시간) 미국 스탠퍼드대학교 인간중심인공지능연구소(HAI)가 발표한 'AI 인덱스 2025' 보고서에 따르면 GPT-4는 임상 사례를 기반으로 한 진단 테스트에서 인간 의사보다 정확도가 16%포인트 더 높게 나왔다. 보고서는 "전반적으로 GPT-4 단독 진단 성능이 가장 높고 결과도 한결같았다"고 했다. 이어 "반면 인간 의사 단독 진단은 성능이 낮았다"며 "다만 인간 의사가 AI와 협업하면 활용 방식에 따라 성과 편차가 컸다"고 덧붙였다.
AI 인덱스 2025 보고서에서 나온 AI 대 인간 의사의 진단 테스트 실험은 GPT-4와 미국의 50명 임상의(전문의 26명·전공의 24명)에게 진단하기 어려운 환자 6명의 사례를 제공하는 방식으로 이뤄졌다. 이어 'GPT-4 단독' 'GPT-4와 협업한 인간 의사' '인간 의사 단독'의 진단 성과를 비교했다. 첫 번째 실험은 'GPT-4 대 인간 의사', 두 번째 실험은 'GPT-4와 협업한 인간 의사 대 인간 의사'로 나눠 진단 정확성을 살펴봤다.
그 결과 GPT-4가 진단한 그룹에서 정확도의 중앙값(92%)은 인간 의사 홀로 진단하는 그룹(76%)보다 16%포인트 더 높았다. 중앙값은 데이터를 나열했을 때 정확히 한가운데 있는 수치를 말한다. 또 GPT-4와 협업한 의사 그룹의 중앙값(76%)은 인간 의사 단독으로 진단한 그룹(74%)보다 단 2%포인트 높은 수준에 그쳤다. 이마저도 유의미하지 않은 것으로 나타났다. 정확도에 대해선 실험에 직접 참여하지 않은 내과 전문의 두 명이 사전에 정해진 기준에 따라 독립적으로 평가했다. 이들은 각 진단을 누가 한 건지 모르는 상태에서 채점했다.
이번 보고서 평가는 의료 현장에서 AI 위상이 달라지고 있음을 보여줬다는 점에서 의미가 있다. AI는 로봇 수술, 의학 데이터 분석은 물론 AI 기반으로 한 암 검진 솔루션 등 광범위하게 도입되고 있다. 하지만 의사의 판단을 도와주는 영역에 머물렀다.
세계적으로 가장 공신력 있는 AI 백서로 꼽히는 AI 인덱스가 GPT-4같은 생성형 AI 모델이 의사보다 진단을 더 잘한다는 분석 결과를 내놓으면서 병원에서 AI 의사를 흔히 볼 수 있는 날이 머지않았다는 전망도 나온다.
보고서는 "이 실험 결과는 전반적으로 GPT-4 진단의 성능은 가장 높고 일관성이 있다는 걸 나타낸다"며 "AI가 의사와 협업할 경우에도 의사 개인의 판단 방식이나 활용 능력에 따라 성과가 달라진다"고 평가했다. 이어 "암 발견과 중증 환자 식별과 같은 분야에서도 AI가 의료진보다 뛰어난 성과를 보인 최근 연구들이 있다"며 "AI의 활용 범위가 단순한 진단을 넘어 보다 복합적인 임상 판단 영역까지 확대되고 있다"고 했다.
이와 함께 GPT-4의 임상지식 성능을 측정하는 대표적 기준인 '메드QA' 벤치마크 테스트에서도 GPT-4는 지난해 기준 96.0%의 정확도를 기록했다. 이 수치는 2022년 67.6%와 비교하면 무려 28.4%포인트 올랐다. 메드QA는 미국 의사국가시험 수준의 의학 문제를 기반으로 구성된 테스트로, AI의 임상 지식수준을 평가하는 데 쓰인다.
보고서는 "AI와 의사의 협업이 최선의 결과를 낳을 수 있다는 연구 결과들이 있어, 이 분야는 향후 중요한 연구 주제가 될 것"이라면서도 "AI 시스템 그 자체가 내포한 리스크, 예를 들어 사실과 다른 정보를 생성하는 '환각' 문제나 예측 불가능한 오류 등 신뢰성과 안전성에 대한 우려도 있어 이러한 위험 요소를 고려한 정책적 대비가 필요하다"고 덧붙였다.
지금 뜨는 뉴스
의료 분야에서 AI의 진단 성능이 빠르게 향상되면서 우리나라에서도 의료 전문직의 미래에 대한 논의가 이어지고 있다. 한국은행이 지난 2월 발표한 보고서 'AI와 한국경제'는 "AI가 단순히 인간 노동을 대체하는 것이 아니라 의료와 같은 고위험 분야에서는 인간의 판단을 보완하는 역할을 할 가능성이 크다"며 "특히 AI의 발전은 의료 서비스의 질을 개선할 잠재력을 지닌다"고 내다봤다.
박유진 기자 genie@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>