삐뚤빼뚤 답안지·지렁이 글씨, AI선생님은 읽었다… 채점의 인간 한계 넘나?

UNIST·POSTECH, 손글씨 수학 답안 채점하는 AI 선생님 ‘베미’ 개발

GPT-4·제미나이 2.O Flash정도 채점 정확도, EMNLP 2025 논문 채택

삐뚤빼뚤한 수학 답안을 사람처럼 꼼꼼하게 채점하고 첨삭까지 해주는 AI 선생님이 나왔다.

UNIST 인공지능대학원 김태환 교수와 POSTECH 고성안 교수팀은 손글씨로 쓴 복잡한 수학 답안을 채점하는 AI 모델인 '베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)'를 개발했다고 17일 전했다.

연구진 (좌측부터) UNIST 김태환 교수, POSTECH 고성안 교수, UNIST 투 프엉 응우옌(Thu Phuong Nguyen) 연구원, POSTECH 득 엠 응우옌(Duc M.Nguyen) 연구원. UNIST 제공

주관식 수학 문제 채점은 교육 현장에서 가장 시간이 많이 소요되는 업무지만 이를 자동화하기에는 한계가 있었다. 수학 풀이 특성상 수식, 그래프, 도형이 섞여 있고 학생마다 필체와 답안 배치가 제각각이라, AI가 이를 정확히 인식해 오류를 찾아내는 것이 어렵기 때문이다.

연구진이 개발한 베미는 마치 사람이 문제 풀이의 흐름을 따라가는 것처럼 수식의 위치와 문맥을 정확히 읽고, 틀린 풀이를 짚어낼 수 있다.

실제 베미로 미적분부터 초등학교 산수 수준의 다양한 수학 문제 풀이를 채점해본 결과, 경량 모델임에도 불구하고 거대 모델인 'GPT-4o', 제미나이 2.0 Flash와 대등한 채점 정확도를 보였다.

특히 답안이 심하게 회전돼 있거나 글씨가 엉망인 고난도 평가에서는 베미가 오히려 상용 모델들을 제치고 더 정확하게 오류 위치를 찾아냈다. 70억개의 매개변수를 사용하는 베미와 달리 GPT나 제미나이와 같은 모델들은 수천억개 이상의 매개변수를 가진 것으로 알려져 있다.

연구팀은 수식 인식 시각 프롬프트(EVPM)라는 자체 개발 기술과 '이중 학습 기법'을 이용해 베미를 만들 수 있었다. EVPM은 베미가 복잡하게 나열된 수식들에 가상의 박스를 쳐서 풀이 순서를 놓치지 않게 만들어준다. 2단계 강화학습은 단순히 정답을 맞혔는지 뿐만 아니라, 풀이 과정 중 어느 부분이 왜 틀렸는지까지 설명할 수 있도록 한다.

또 AI가 학습할 수 있는 정교한 손글씨와 첨삭 데이터가 많지 않았기 때문에 거대 언어 모델(QwQ-32B)로 합성 데이터를 만들어 활용했다.

베미는 오픈 소스 모델로 만들어져 학교나 학원 같은 교육 기관에서 무료로 쓸 수 있다.

김태환 교수는 "손글씨 수학 채점은 에듀테크 AI의 난제 중 하나이자 이미지와 언어를 함께 이해해야 하는 멀티모달 AI의 대표적 적용 분야"라며 "베미는 복잡한 풀이 구조를 사람처럼 단계별로 따라가며 판단하는 모델로, 실제 교육 현장에서 활용할 수 있을 정도의 안정성과 효율성을 확보한 것에 큰 의미가 있다"고 말했다.

김 교수는 이어 "자체 개발한 EVPM 모듈은 복잡하게 배열된 시각 정보를 자동으로 구조화할 수 있게 해, 교육 분야뿐 아니라 문서 인식, 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야의 멀티모달 추론 모델에도 쓸 수 있을 것"이라고 덧붙였다.

베미(VEHME) 모델의 전체 구조.

이번 연구는 과학기술정보통신부 한국연구재단, 정보통신기획평가원 등의 지원을 받아 이뤄졌으며, 연구 결과는 자연어처리(NLP) 분야 대표 국제학회인 EMNLP(Empirical Methods in Natural Language Processing)의 정식 논문으로 채택됐다.

올해 EMNLP는 지난 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.

영남팀 영남취재본부 김철우 기자 sooro97@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스