AI 연구 진입 장벽 완화·활용 확대

엘리스그룹은 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 '허깅페이스(Hugging Face)'에 공개했다고 14일 밝혔다.

이번에 공개된 데이터셋은 거대 언어 모델(LLM)의 한국어 성능을 학술·교육 도메인에서 강화하기 위해 설계된 '한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)'와 '한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu)' 2종으로 구성됐다.

허깅페이스에 공개된 엘리스그룹 한국어 파인웹 교육 데이터셋 데모. 엘리스그룹

'한국어 파인웹 교육 데이터셋 데모'는 영문 교육용 웹 텍스트 코퍼스(말뭉치)인 FineWeb-Edu를 한국어로 번역한 약 1900억(190B) 토큰 규모의 데이터셋 'korean-translated-fineweb-edu-dedup'의 5%를 샘플 형태로 구성한 데모다. 학술·교육 도메인의 한국어 LLM 학습에 활용할 수 있도록 설계했으며, 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 제공된다.

'한국어 웹 텍스트 교육 데이터셋'은 대규모 한국어 웹 텍스트에서 교육적 가치 점수를 통과한 콘텐츠만 선별해 구축한 것으로, 사실성·문맥 일관성·교육 적합성을 평가해 한국어 AI 모델 학습에 활용할 수 있도록 구성했다.

엘리스그룹은 한국어 인공지능(AI) 모델 학습에 적합한 고품질 데이터를 연구자, 개발자, 기업이 폭넓게 활용할 수 있도록 제공해 국내외 AI 연구·개발 활성화를 지원할 계획이다.





김수인 엘리스그룹 CRO는 "앞으로도 데이터·모델·인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 지속해서 기여하겠다"고 했다.





