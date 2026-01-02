AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

"솔라 오픈, '프롬 스크래치' 모델…허위 사실에 강력 대응"

정부가 추진하는 '독자 인공지능(AI) 파운데이션 모델' 프로젝트에 참여하는 업스테이지가 공개 검증회를 열고 독자 AI 모델인 '솔라-오픈-100B(솔라 오픈)'가 중국 기업의 거대언어모델(LLM)을 복제했다는 의혹을 전면 부인했다.

김성훈 업스테이지 대표는 2일 오후 서울 강남구 사옥에서 진행된 검증회에서 "솔라 오픈이 중국 모델을 복사해 미세 조장한 결과물이라는 주장은 사실과 다르다"며 이같이 설명했다.

김성훈 업스테이지 대표가 2일 오후 서울 강남구 사옥에서 진행된 검증회에서 발표하고 있다. 업스테이지 제공

김 대표는 "정부 지원 프로젝트를 통해 확보한 그래픽처리장치(GPU)를 통해 (솔라 오픈을) 프롬 스크래치 방식으로 학습했다"고 강조했다. 프롬 스크래치는 AI 모델을 처음부터 직접 구축하는 방식을 뜻한다.

우선 김 대표는 '레이어놈(LayerNorm)' 유사성을 근거로 타 모델의 가중치를 재사용했다는 주장은 통계적 착시에 불과하다고 설명했다. 레이어놈 유사성을 보인 구간이 모델 전체의 약 0.0004%에 불과하다는 이유다. 레이어놈은 모델의 특정 층 내부의 특징에 대한 평균과 분산을 계산하고, 이를 이용해 활성화 값들을 정규화(표준화)하는 것을 뜻한다.

레이어놈 유사성 판단에 사용된 '코사인 유사도' 역시 정확한 비교 기준이 아니라고도 강조했다. 코사인 유사도는 벡터의 방향만 비교하는 단순 지표인데, 언어모델들의 레이어놈이 비슷한 구조와 특성을 공유하기에 모델 간 유사도가 높은 값으로 나오는 것이 오히려 자연스럽다는 설명이다. 김 대표는 "서로 다른 영어사전 2개를 펼쳐놓고 사전의 내용이 비슷하다고 지적하는 꼴"이라고 꼬집었다.

업스테이지는 정규화를 통한 모델 특성을 반영하는 '피어슨 상관계수'로 재분석한 결과, 솔라 오픈과 타 모델 간 패턴이 일치하지 않는다고도 부연했다.

특정 모델과 구조·코드가 유사하다는 지적에 대해서도 사실과 다르다고 반박했다. 주요 오픈소스 LLM 개발사들은 학습용 코드를 외부에 공개하지 않는데, 접근 자체가 불가능한 학습 코드를 재사용해 모델을 개발할 수 없다는 취지다.

김 대표는 "의견을 주고받는 건강한 토론은 환영하나 이와 같은 허위 사실을 단정적으로 전달하는 행위는 AI 3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력의 의미를 심각하게 훼손하는 것"이라며 "앞으로도 업스테이지는 투명한 기술 공개를 바탕으로 글로벌 최고 수준의 기술력을 증명하고 국내 AI 생태계 확장에 힘쓰겠다"고 밝혔다.

업스테이지의 AI 모델 복제 의혹은 전날 제기됐다. 고석현 사이오닉AI 최고경영자(CEO)는 전날 자신의 사회관계망서비스(SNS)를 통해 "국민 세금이 투입된 프로젝트에서 중국 모델을 복사해 미세 조정한 결과물로 추정되는 모델이 제출된 건 상당히 큰 유감"이라며 솔라 오픈이 중국 기업 지푸AI의 'GLM-4.5-에어'에서 파생됐다고 주장했다.

고 대표가 올린 보고서는 솔라 오픈과 GLM-4.5-에어의 가중치 구조를 분석한 내용이 담겼다. 보고서는 두 모델을 구성하는 매개변수(파라미터) 유사도를 측정했고, 일부 레이어에서 결정적인 유사도를 발견했다고 했다. 다만 해당 보고서는 현재 삭제된 상태다.

고 대표는 이후 올린 게시글에서 "비교 대상 두 모델의 토큰 임베딩이 사실상 동일한 분포를 가지고 있다고 확인했다"면서도 "이 역시 GLM-4.5-에어와 솔라 오픈이 모델 구조와 학습코드가 거의 동일하기 때문에 동일한 분포를 가진 것으로 판단한다"라고 말했다. 그러면서 "솔라 오픈이 GLM-4.5-에어 모델의 학습코드 대부분을 그대로 가져와서 사용한 건 사실로 판단된다"면서 "물론 AI 연구 과정에서 이러한 접근 자체가 드문 일은 아니지만 이런 경우라면 처음부터 출처를 공개하는 게 보통"이라고 주장했다.





앞서 업스테이지는 지난달 30일 독자 AI 파운데이션 모델 프로젝트 1차 발표회에서 솔라 오픈을 공개했다. 이 모델은 매개변수가 1000억개(100B)에 달하는데, 매개변수가 많은 만큼 고성능 추론에 특화돼 있다. 업스테이지는 5개 정예팀 가운데 유일하게 스타트업만으로 컨소시엄을 구성했다.





이명환 기자 lifehwan@asiae.co.kr

