허깅페이스 통해 3종 모델 오픈소스로 공개
안전한 AI 서비스 환경 조성

카카오가 생성형 인공지능(AI) 서비스의 안전성 강화를 위해 자체 개발한 AI 가드레일 모델 3종을 오픈소스로 공개했다고 27일 발표했다.
카카오가 공개한 '카나나 세이프가드(Kanana Safeguard)'는 AI 서비스에서 발생할 수 있는 유해 콘텐츠를 사전에 차단하고 안전성을 검증하는 모델이다. 최근 생성형 AI 서비스 확산과 함께 유해 콘텐츠에 대한 사회적 우려가 커지면서 기술적·제도적 안전장치 마련의 필요성이 대두된 가운데 나온 것이다.
이번에 공개된 모델은 총 3종으로, 각각 다른 유형의 위험 요소를 탐지한다. '카나나 세이프가드'는 사용자 발화나 AI 답변에서 증오, 괴롭힘, 성적 콘텐츠 등의 유해성을 탐지한다. '카나나 세이프가드-사이렌(Kanana Safeguard-Siren)'은 개인정보나 지식재산권 등 법적 주의가 필요한 요청을 감지하며, '카나나 세이프가드-프롬프트(Kanana Safeguard-Prompt)'는 AI 서비스 악용을 시도하는 사용자 공격을 탐지한다.
특히 이 모델들은 카카오의 자체 언어모델 '카나나'를 기반으로 개발됐으며, 한국어와 한국 문화를 반영한 독자적인 데이터셋을 활용해 한국어 특화 성능을 갖췄다는 점이 특징이다. 카카오 측은 AI 모델 성능 평가 지표인 F1 스코어를 기준으로 한국어 성능에서 글로벌 모델을 능가하는 결과를 기록했다고 밝혔다.
지금 뜨는 뉴스
카카오는 AI 생태계 발전에 기여하기 위해 이들 모델에 상업적 이용과 수정·재배포가 자유로운 아파치 2.0 라이선스를 적용했다. 모든 모델은 허깅페이스(Hugging Face) 플랫폼을 통해 내려받을 수 있으며, 향후 지속적인 업데이트를 통해 성능을 개선해 나갈 계획이다.
박유진 기자 genie@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>