구글 Gemini 등 주요 상용 거대언어모델(LLM)은 복수의 '작은 AI 모델(전문가 AI)'을 선택적으로 사용하는 전문가 혼합(Mixture-of-Experts·MoE) 구조를 활용한다. 효율성 향상을 위해서다. 하지만 이 구조가 되레 새로운 보안 위협에 노출될 수 있다는 경고가 나왔다.
KAIST는 전기 및 전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용해 LLM의 안전성을 훼손할 수 있는 공격 기법을 세계 최초로 규명해 정보보안 분야 국제 학회 'ACSAC(Annual Computer Security Applications Conference) 2025'에서 최우수논문상을 받았다고 26일 밝혔다.
ACSAC는 정보보안 분야에서 가장 영향력 있는 국제 학술대회 중 하나다. 올해 최우수논문은 전체 논문 중 2편만 선정됐다. 국내 연구진이 인공지능(AI) 보안 분야에서 이 같은 성과를 거둔 것은 매우 이례적이다.
공동연구팀은 이번 연구에서 전문가 혼합 구조의 근본적 보안 취약성을 체계적으로 분석했다. 특히 공격자가 상용 LLM의 내부 구조에 직접 접근하지 않아도 악의적으로 조작된 '전문가 모델' 하나만 오픈소스로 유통하면 LLM 전체가 위험한 응답을 생성(유도)할 수 있음을 입증했다.
정상적인 AI 전문가들 사이에 단 하나의 '악성 전문가'만 포함해도 특정 상황에서 해당 전문가가 반복적으로 선택돼 전체 AI의 안전성을 무너뜨릴 수 있다는 의미다. 무엇보다 이 과정에서 모델의 성능 저하는 거의 나타나지 않아 문제를 사전에 발견하기 어렵다는 점이 가장 큰 위험한 요소로 지적된다.
실험 결과 공동연구팀이 제안한 공격 기법은 유해 응답 발생률을 기존 0%에서 최대 80%까지 높였고 다수 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 낮아졌다.
이는 세계적으로 확산되는 오픈소스 기반의 LLM 개발 환경에서 발생 가능한 '새로운 보안 위협'을 최초로 제시했다는 점에서 의미를 갖는다. 동시에 앞으로 AI 모델을 개발하는 과정에서 성능 뿐 아니라 '전문가 모델의 출처 및 안전성 검증'이 필수가 될 것이라는 점을 시사한다.
신 교수와 ·손 교수는 "효율성을 위해 빠르게 확산하는 전문가 혼합 구조가 되레 보안 취약점이 될 수 있다는 사실이 이번 연구를 통해 입증(실증)됐다"며 "공동연구팀이 'ACSAC 2025'에서 최우수 논문상을 받은 것은 AI 보안의 중요성을 국제적으로 인정받은 의미 있는 성과"라고 강조했다.
지금 뜨는 뉴스
한편 이번 연구에는 KAIST 전기 및 전자공학부 김재한·송민규 박사과정, 나승호 박사(현 삼성전자), KAIST 전기 및 전자공학부 신승원 교수, KAIST 전산학부 손수엘 교수가 참여했다. 연구 결과(논문)는 최근 미국 하와이에서 열린 ACSAC에서 발표됐다.
대전=정일웅 기자 jiw3061@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>



