MS·애플 등 sLLM 공개
기술 넘어 상업화 경쟁
'가성비' 높은 모델로 승부
거인들의 '작은 전쟁'이 본격화됐습니다. 그간 빅테크(대형정보기술기업)들은 인공지능(AI) 성능과 직결되는 파라미터(매개변수) 키우기에 집중했었는데요. 이제는 '작지만 강한' 모델로 경쟁의 양상이 달라졌습니다. 훈련과 구동에 엄청난 비용이 드는 거대언어모델(LLM) 대신 '가성비(가격 대비 성능)' 좋은 소형거대언어모델(sLLM)로 시장을 키우겠다는 거죠.
마이크로소프트(MS)는 지난 23일(현지시간) '파이-3 미니'를 공개했습니다. 파라미터가 38억개에 불과한 소형 모델인데요. 챗GPT를 서비스하는 오픈AI의 GPT-3.5(1750억개)와 비교하면 50분의 1 불과한 수준.
파라미터는 정보를 학습하고 기억하는 뇌의 시냅스와 같은 역할을 해서 그 숫자가 클수록 성능이 높다고 봅니다. 보통 파라미터가 1000억개를 넘어가면 LLM, 그 미만이면 sLLM으로 구분해요.
파이-3 미니는 소형 모델이지만 언어, 추리, 코딩 등 다양한 능력을 갖췄습니다. 짧은 보고서를 올리면 이를 기반으로 질의응답도 가능하죠. MS는 미니를 시작으로 파라미터가 70억개인 '파이-3 스몰', 140억개인 '파이-3 미디엄'을 선보일 계획이라네요.
MS에 이어 애플은 소형 모델 '오픈ELM' 선보였습니다. 총 8개 모델로 파라미터가 각각 2억7000만개, 4억5000만개, 11억개, 30억개 등이죠. 애플은 작은 모델로도 높은 성능을 내기 위해 레이어별 스케일링 전략을 썼다고 해요. 모델을 이루는 층마다 파라미터를 효율적으로 배분하는 방식으로 정확도를 높인 거죠.
소형 모델은 이뿐만이 아닙니다. 메타는 지난 18일 차세대 AI 모델인 '라마3'를 출시하면서 소형 모델도 선보였어요. 파라미터가 80억개로 챗봇과 코딩 지원에 사용할 수 있는 모델이죠. 구글은 파라미터가 각각 20억개, 70억개인 젬마 2B, 7B를 공개했고 '오픈AI 대항마'로 불리는 앤스로픽 역시 '클로드3'를 발표하면서 소형 모델인 '클로드3 하이쿠'를 같이 선보였습니다.
이들이 모델 크기에서 효율화 경쟁으로 넘어간 이유는 무엇일까요. 뭐니 뭐니 해도 비용 문제가 크기 때문입니다. 매개변수를 키울수록 범용성을 갖고 성능도 더 좋아지겠지만 그만큼 비용이 올라가죠. 샘 올트먼 오픈AI 최고경영자(CEO)가 "챗GPT 구동 비용에 눈물이 날 정도"라고 했을 만큼요. 모델을 학습시키는 것뿐 아니라 구동하는데도 많은 돈이 듭니다. 일단 덩치가 크기 때문에 최적화하는 것이나 관리하는 것도 부담이 크죠. 돈이 많이 든다는 건 그만큼 활용도가 낮아진다는 의미이기도 합니다.
반면 소형 모델은 학습에 필요한 시간이나 비용을 아낄 수 있고 운영비도 상대적으로 낮습니다. 만능 범용은 아니지만 특정 분야나 기업에 특화하면 제법 높은 수준의 작업을 수행할 수 있죠. 사이즈가 작아 다른 애플리케이션과 통합하기도 쉽고요. 쉽게 말해 '가성비'가 좋다는 얘기입니다. 세바스티엔 부벡 MS 생성형 AI 연구 담당 부사장은 '파이-3 미니'에 대해 "획기적으로 비용이 적게 든다"며 "비슷한 기능을 가진 다른 모델들과 비교했을 때 비용이 10분의 1 수준"이라고 강조했죠.
무엇보다 소형 모델은 온디바이스AI 기기와 궁합이 잘 맞습니다. 온디바이스 AI는 서버나 클라우드를 거치지 않고 기기가 자체적으로 AI를 구동하는 건데요. 스마트폰이라는 제한된 성능과 공간에서 AI를 구동하려면 작은 모델이 더 적합하겠죠. 애플의 '오픈ELM' 역시 온디바이스용 AI입니다. 애플의 노트북이나 스마트폰에 적용될 가능성도 있겠죠.
기술 경쟁을 넘어 상업화로 승부를 보려면 수익성 좋은 모델이 필수죠. 업계 관계자는 "앞으로는 누가 비용 합리적으로 적정한 모델을 만들어 서비스에 적용하느냐 게임"이라며 "다양한 사례에 맞춰 최적화된 모델들이 시장을 나눠 가질 것"이라고 내다봤습니다.
최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>