최유리기자
국내 인공지능(AI) 기업들이 ‘거대언어모델(LLM)의 수능’으로 불리는 허깅페이스 ‘오픈 LLM 리더보드’에서 잇따라 1위를 차지했다. 국내 기업이 해외 빅테크(대형 정보기술 기업)에 견줄 만한 기술력을 갖췄다는 평가다. 현재 가장 우수한 모델인 오픈AI의 GPT-4 수준에 도달할 수 있을지도 관심이다.
24일 기준 허깅페이스 오픈 LLM 리더보드를 보면 국내 AI 스타트업 모레는 자체 LLM ‘MoMo-72B’로 1위(78.55점)를 차지했다. 지난 18일 이보다 파라미터(매개변수)가 작은 ‘MoMo-70B’로 1위(77.29점)에 올랐다가 새 모델로 점수를 경신했다. 정보를 학습하고 기억하는 역할을 하는 매개변수는 크기가 클수록 성능이 좋다. 현재 모레가 개발한 LLM은 허깅페이스 1, 3, 10위를 차지했다.
미국 허깅페이스가 운영하는 오픈 LLM 리더보드에는 개방형(오픈소스) LLM 3600개 이상이 등록돼 있다. 모델을 등록하면 수학, 과학, 상식, 추론 등 여섯 가지 과목에서 평가가 이뤄진다. LLM이 과목별로 수천개 문제를 풀면 평균 점수를 낸 후 순위를 집계한다. AI 스타트업 업스테이지 관계자는 "AI 성능을 평가하는 테스트를 총집결해놨기 때문에 LLM 기술을 증명하는 바로미터로 본다"며 "모델의 우수성을 알리고 기술을 공유하기 위해 허깅페이스를 활용한다"고 말했다.
국내 기업이 허깅페이스 LLM 리더보드 1위를 거머쥔 것은 이번이 네 번째다. 업스테이지가 지난해 8월(72.3점)과 12월(74.2점) 두 차례 1위에 올랐다. AI 토익학습 앱으로 알려진 뤼이드는 메타의 라마2를 파인튜닝(미세조정)한 모델로 지난해 10월 1위(74.07점)를 차지했다. 올 초에는 카카오뱅크가 업스테이지 모델인 ‘솔라’를 기반으로 개발한 ‘카본빌런’으로 1위(74.52점)를 기록했다.
국내 기업도 빅테크와 얼마든지 경쟁할 수 있는 기술력을 갖췄다는 분석이다. 점수로만 보면 메타의 라마2(67.87점)나 오픈AI의 GPT-3.5(71.07점)를 뛰어넘었다. 최근 20억달러(약 2조6000억원)의 기업가치로 유니콘에 오른 프랑스 스타트업 미스트랄 AI의 최신 모델(72.62점)보다 앞섰다. 작은 모델로 뛰어난 성능을 내는 효율성도 높다. 지난해 12월 1위를 기록한 업스테이지의 솔라는 매개변수가 107억개다. 당시 2위였던 알리바바 큐원(720억개)의 6분의 1 규모로 성능을 앞섰다.
국내 기업의 기술력이 ‘마의 장벽’으로 여겨지는 80점대를 돌파할 수 있을지도 관심사다. 오픈AI의 최신 모델 GPT-4는 84점대로 알려져 있다. 비공개 모델이라 GPT-4에 기반한 챗GPT에 허깅페이스 평가 항목을 물어보는 식으로 추정한 점수다. 업계에선 매개변수를 키우면 80점대 돌파를 앞당길 수 있지만 비용 효율성이 높은 모델을 찾는 게 우선순위라고 본다. 모델이 크면 구동에도 큰 비용이 들어 활용도가 떨어지기 때문이다.
임정환 모레 AI 그룹장은 "우수한 AI로 평가받으려면 AI 기술과 여기에 들어가는 인프라를 최적화하는 소프트웨어(SW) 엔지니어링 기술이 모두 필요하다"며 "두 기술을 모두 갖춘 곳이 많지 않아 최근에는 리더보드 점수(LLM 시험 점수) 상승 폭이 많이 꺾였다"고 설명했다.
몇몇 한국 기업이 선전하고 있지만 리더보드에 올라온 LLM 대다수는 미국, 중국에서 만든 것이다. 기술·자본을 갖춘 국가 모델과 영어 시험 문제로 경쟁하다 보니 한국어 능력은 제대로 평가받을 수 없다. 이를 보완하기 위해 한국어에 특화한 모델을 평가하는 플랫폼도 나왔다. 업스테이지와 한국지능정보사회진흥원(NIA)은 지난해 9월 ‘오픈 Ko-LLM 리더보드’를 내놨다. 허깅페이스 평가모델을 기반으로 한국어 특성과 문화를 반영했다. 현재 1000개 가까운 모델이 올라와 경쟁하고 있다.