'소버린 AI' 논의에 시사점 제시

에스투더블유(S2W)는 거대언어모델(LLM) 토큰화 구조의 근본적 취약점을 규명한 S2W 및 한국과학기술원(KAIST) 공동연구팀 논문이 자연어처리(NLP) 학회 '자연어처리방법론학회(EMNLP) 2025'에 채택됐다고 10일 밝혔다.

EMNLP는 NLP 분야의 세계 3대 학술대회 중 하나로 꼽힌다. S2W는 글로벌 최고 권위 인공지능(AI) 학회에 4년 연속으로 논문을 등재하는 성과를 냈다.

에스투더블유(S2W)는 한국과학기술원(KAIST) 공동연구팀과 발표한 논문이 자연어처리방법론학회(EMNLP) 2025에 채택됐다고 10일 밝혔다.

S2W 연구진이 발표한 "Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers(바이트 레벨 토크나이저 내 불완전 토큰의 취약점을 드러낸 비정상적 바이그램)" 논문은 LLM 내부의 처리 기능 중 하나로 문장 분석 과정에서 문자를 분절해 처리하는 도구인 '토크나이저'가 환각을 유발할 수 있다는 내용을 담았다. 특히 환각 현상이 영어 이외의 언어에서 자주 나타나 모델의 답변 품질이 비영어권에서 더욱 저하될 수 있다는 가능성을 제시했다.





박근태 S2W 최고기술책임자(CTO)는 "이번 논문은 각국이 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 '소버린 AI'에 관한 논의에 유의미한 시사점을 제공한다"며 "S2W는 신뢰할 수 있는 AI를 만들기 위한 가장 선도적인 연구 성과를 지속 창출할 계획"이라고 했다.





최호경 기자 hocance@asiae.co.kr

