에이전트 벤치마크서 87% 기록
40B 이하 중소형 모델로 구현
B2B 시장 정조준
KT가 자체 개발한 인공지능(AI) 모델 '믿:음 K'가 글로벌 AI 성능 평가 플랫폼 'AAII(Artificial Analysis Intelligence Index)'에서 국내 중소형 모델 가운데 최고 점수를 기록했다. 특히 업무를 스스로 수행하는 '에이전틱 AI' 역량에서 최상위권 성능을 입증하며, 기업용 AI 시장에서 경쟁력을 공식적으로 인정받았다는 평가다.
KT는 믿:음 K가 AAII에 등재된 국내 AI 모델 가운데 중소형 모델 기준 1위를 차지했다고 5일 밝혔다. AAII는 AI 평가 전문 기관 아티피셜 애널리시스(Artificial Analysis)가 운영하는 플랫폼으로, 단일 시험이 아닌 다수의 공개 벤치마크 결과를 종합해 AI 모델의 성능을 비교·분석한다. 현재 글로벌 주요 AI 모델과 함께 LG 엑사원, 네이버 하이퍼클로바, 업스테이지 솔라 등 국내 모델들도 등재돼 있다.
이번 평가에서 믿:음 K는 추론, 전문 지식, 수학·프로그래밍, 에이전트 수행 능력 등 10여개 핵심 항목에서 고르게 높은 점수를 기록했다. 단순 질의응답을 넘어 목표를 이해하고 필요한 도구와 시스템을 활용해 과업을 완수하는 에이전틱 AI로서의 범용성과 실전성이 동시에 검증됐다는 설명이다.
특히 에이전트 특화 성능을 평가하는 'τ²-bench(타우 스퀘어 벤치)'에서 87%를 기록하며 최상위권 모델에 이름을 올렸다. τ²-bench는 AI가 실제 업무 환경에서 사람과 협업하며 여러 도구를 활용해 과업을 끝까지 수행할 수 있는지를 평가하는 지표다. KT에 따르면 이 수치는 구글 제미나이 최신 모델과도 유사한 수준이다.
최근 AI 시장이 대화형 모델에서 업무 수행형 AI 에이전트로 빠르게 이동하는 가운데, 믿:음 K는 문서 작성·분석, 내부 업무 자동화, 개발·운영 환경 보조 등 기업 현장에서 즉시 활용 가능한 모델로 평가받고 있다.
믿:음 K는 매개변수 40B(400억개) 이하급 중소형 모델임에도 불구하고 고난도 추론과 전문 지식 평가 지표인 MMLU 프로, GPQA, HLE 등에서도 안정적인 성적을 거뒀다. 특히 한국어 이해와 맥락 파악 성능에서 국내 최고 수준을 기록한 점이 특징이다.
KT는 모델 아키텍처 설계부터 학습 데이터 구축까지 전 과정을 자체 수행하는 '프롬 스크래치(From scratch)' 방식으로 개발해, 한국 기업의 업무 환경과 사회적 맥락을 정교하게 반영했다고 설명했다. 대규모 GPU 인프라 부담을 줄이면서도 지시 이행 능력과 효율성을 동시에 확보했다는 점에서 B2B(기업간거래) 시장에 적합한 모델이라는 평가다.
KT는 초기 개발 단계부터 B2B 시장을 겨냥해 믿:음 K를 설계했다. 국내외 데이터 보유 기관과의 데이터 얼라이언스를 통해 저작권이 확보된 고품질 데이터를 학습에 활용했고, 주요 기업 고객들과 협력해 실제 업무에 적용 가능한 시나리오를 다듬어 왔다.
KT는 금융·공공·제조 등 산업별로 업무를 자동화하고 스스로 판단·처리하는 맞춤형 AI 에이전트를 확산해 기업의 AI 전환(AX)을 본격 지원할 계획이다.
오승필 KT 기술혁신부문장(부사장)은 "이번 AAII 등재는 KT의 자체 AI 기술력이 글로벌 기준에 도달했음을 객관적으로 보여주는 결과"라며 "에이전틱 AI를 통해 한국 기업의 업무 혁신을 이끄는 핵심 파트너로 자리매김하겠다"고 말했다.
박유진 기자 genie@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>


