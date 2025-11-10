'소버린 AI' 논의에 시사점 제시
에스투더블유(S2W)는 거대언어모델(LLM) 토큰화 구조의 근본적 취약점을 규명한 S2W 및 한국과학기술원(KAIST) 공동연구팀 논문이 자연어처리(NLP) 학회 '자연어처리방법론학회(EMNLP) 2025'에 채택됐다고 10일 밝혔다.
EMNLP는 NLP 분야의 세계 3대 학술대회 중 하나로 꼽힌다. S2W는 글로벌 최고 권위 인공지능(AI) 학회에 4년 연속으로 논문을 등재하는 성과를 냈다.
S2W 연구진이 발표한 "Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers(바이트 레벨 토크나이저 내 불완전 토큰의 취약점을 드러낸 비정상적 바이그램)" 논문은 LLM 내부의 처리 기능 중 하나로 문장 분석 과정에서 문자를 분절해 처리하는 도구인 '토크나이저'가 환각을 유발할 수 있다는 내용을 담았다. 특히 환각 현상이 영어 이외의 언어에서 자주 나타나 모델의 답변 품질이 비영어권에서 더욱 저하될 수 있다는 가능성을 제시했다.
박근태 S2W 최고기술책임자(CTO)는 "이번 논문은 각국이 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 '소버린 AI'에 관한 논의에 유의미한 시사점을 제공한다"며 "S2W는 신뢰할 수 있는 AI를 만들기 위한 가장 선도적인 연구 성과를 지속 창출할 계획"이라고 했다.
최호경 기자 hocance@asiae.co.kr
