챗GPT, 수능 국어 35분 만에 풀고 '1등급'…'원점수 97점'

o1-프리뷰, 45문항 중 단 1개만 틀려
"인간 뛰어넘을 시기 머지않아"

인공지능(AI)이 대학수학능력시험 국어 영역에서 만점에 가까운 점수를 획득, 1등급을 차지했다.

사진출처=픽사베이

국내 AI 스타트업 마커AI가 오픈AI의 AI 모델을 활용해 2025학년도 수능 국어 영역 시험을 치른 결과, 'o1-프리뷰' 모델이 45문제 중 단 한 문제만 틀려 1등급에 해당하는 원점수 97점을 받았다. 80분이 주어지는 시험에서 o1-프리뷰가 1등급을 맞기 위해 쏟은 시간은 단 35분이었다.

'o1-프리뷰'가 유일하게 틀린 문제는 8번 문제로 근대화에 대한 두 가지 비문학 지문을 읽고, 보기에서 주어진 사례에 대입해 논리적 사고를 평가하는 문제였다. 2025학년도 수능 국어 영역 가운데 오답률이 가장 높은 81.5%를 기록, 수험생들도 가장 어려워한 문제로 꼽힌다. 마커AI는 o1-프리뷰가 지문과 보기의 맥락을 이해하고, 문제의 숨은 취지를 파악하는 과정에서 오류를 범했다고 설명했다. 출제진이 배치한 '매력적인 오답'에 빠진 것이다.

마커AI는 최근 10년간 수능 국어 영역에 대해 AI 모델의 처리 능력을 평가해왔다. 2025학년도 수능 국어 영역을 푼 'o1-미니'는 원점수 78점을, 'gpt-4o'는 75점을 기록해 4등급에 포함됐다.

사진출처=마커AI

o1-프리뷰의 발전 속도는 가파르다. 지난해 수능 국어영역에서는 원점수 88점을 맞았는데 1년 만에 만점에 가깝게 점수를 올렸다. GPT4o의 경우 지난해 수능 국어에서 원점수 65점으로 4등급을 받았다. 메타와 구글 등의 생성형 AI들도 최근 10개년 수능 국어영역에서 3등급~9등급 수준의 점수를 받았다.

마커AI 연구원 진 만성씩은 블로그에 "2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM(거대언어모델, Large Language Model)의 한국어 언어능력이 인간의 퍼모먼스를 뛰어넘을 시기가 머지않았음을 보여준다"고 평가했다.

이슈&트렌드팀 김은하 기자 galaxy656574@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스