AI 스타트업 비드래프트(VIDRAFT, 대표 김민식)가 인공지능(AI)의 '메타인지' 능력을 정량 측정하는 벤치마크 'FINAL Bench'를 Hugging Face와 GitHub에 공개했다.
공개 직후 FINAL Bench 데이터셋은 허깅페이스 전체 데이터셋 인기 순위 상위권에 올랐으며, 이를 기반으로 구축한 'FINAL Bench Leaderboard'는 허깅페이스가 선정하는 'Spaces of the Week'에 이름을 올렸다. 이는 전 세계에서 매주 공개되는 다양한 AI 서비스 중 일부만 선정되는 주간 프로그램으로, 국내 연구진이 개발한 벤치마크가 글로벌 AI 커뮤니티의 주목을 받았다는 평가다.
메타인지는 자신의 사고 과정을 점검하고 오류를 인식·교정하는 능력을 의미한다. 인간 전문가와 초보자를 구분하는 핵심 역량으로 꼽히며, 범용인공지능(AGI) 연구에서도 중요한 요소로 언급된다. 그러나 기존의 대표적 AI 평가 지표들은 주로 '최종 정답의 정확도'에 초점을 맞추고 있어, 모델이 스스로 오류를 인지하고 수정하는 능력까지는 충분히 측정하지 못한다는 한계가 지적돼 왔다.
FINAL Bench는 이러한 공백을 보완하기 위해 설계됐다. 수학·과학·철학·의학·경제·역사 등 15개 학문 분야의 전문가 수준 과제로 구성됐으며, 각 문항에는 AI가 빠지기 쉬운 인지적 함정이 포함돼 있다. 단순히 정답 여부를 평가하는 것이 아니라, 오류 인지와 복구 과정을 △과정 품질 △메타인지 정확도 △오류 복구 △통합 깊이 △최종 정답 등 다섯 개 축으로 분리해 측정하는 것이 특징이다.
연구진에 따르면 자기교정 구조를 적용했을 때 성능 향상의 상당 부분이 '오류 복구' 지표에서 나타났다. 이는 지식의 양이나 단순 정확도보다 자기 오류를 인식하고 수정하는 능력이 모델 성능 개선에 중요한 요소임을 시사한다는 설명이다.
논문 'FINAL Bench: Measuring Functional Metacognitive Reasoning in LLMs'는 국제 학술대회 게재를 추진 중이며, 평가 데이터셋과 채점 코드, 심판 프롬프트는 모두 공개됐다. 이를 통해 연구자와 개발자 누구나 자사 모델을 동일 기준으로 평가할 수 있도록 했다.
김민식 대표는 "인지심리학의 메타인지 이론을 AI 평가에 적용해 모델의 자기 점검 능력을 구조적으로 측정하고자 했다"며 "AI가 얼마나 많은 지식을 보유했는지뿐 아니라, 스스로의 한계를 인식하고 교정할 수 있는지를 평가하는 기준이 중요해질 것"이라고 밝혔다.
지금 뜨는 뉴스
한편 비드래프트는 서울AI허브 입주 기업으로, 다양한 AI 모델과 서비스를 개발·공개해 왔다. 글로벌 AI 플랫폼 리더보드에서 성과를 기록했으며, 의료 분야 AI 평가 부문 등에서도 상위권에 오른 바 있다.
최봉석 기자 mail00@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>


