본문 바로가기
bar_progress

글자크기 설정

닫기

"영어 기반 LLM 개량" 고성능 한국어 'LLM' 개발 가능성 입증

시계아이콘01분 37초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기

영어 기반의 거대 언어 모델(Large Language Model·이하 LLM)을 개량해 천문학적 비용을 들이지 않고도 '고성능 한국어 LLM' 개발이 가능하다는 것을 국내 연구진이 입증했다.


LLM은 방대한 양의 텍스트 데이터를 학습해 인간의 언어를 이해·생성하는 인공지능(AI) 모델을 말한다.


"영어 기반 LLM 개량" 고성능 한국어 'LLM' 개발 가능성 입증 (왼쪽부터) 손영준 박사과정, 소연경 박사과정, 박찬우 석사과정, 이재진 교수(연구책임자), 김진표 박사과정, 석지헌 박사과정, 조경제 박사과정, 박종원 석사과정, 김종민 박사과정 등 연구팀 구성원들이 기념촬영을 하고 있다. 서울대 이재진 교수 연구팀 제공
AD

4일 한국연구재단에 따르면 서울대 이재진 교수 연구팀은 최근 영어 기반 언어 모델 '라마(Llama)'를 개량해 한국어에 특화된 언어 모델 'Llama-Thunder-LLM'과 한국어 전용 토크나이저 'Thunder-Tok', 한국어 LLM의 성능을 객관적으로 평가할 수 있는 'Thunder-LLM 한국어 벤치마크'를 개발해 온라인에 공개했다.


토크나이저는 문장을 언어 모델이 이해할 수 있는 단위의 단어를 말한다. 벤치마크는 특정 기준과 비교해 성능을 측정·평가하는 것으로 컴퓨터 하드웨어(HW), 소프트웨어(SW) ALC 경영 전략 등 다양한 분야에서 활용된다.


LLM을 이용한 AI 기술은 전 세계적으로 주목받는다. 국내에서도 한국어에 특화된 언어 모델 개발에 관심이 점차 높아지고 있다.


하지만 LLM을 구축하기 위해선 방대한 데이터가 필요하지만, 실상 이를 충족할 만큼 데이터가 충분하지 않은데다 개발하는 데 막대한 비용이 소요돼 LLM 개발은 주로 대기업, 해외 빅테크 기업을 중심으로만 이뤄졌다.


중소 연구기관과 대학에서는 LLM 관련 연구개발을 진행하기가 쉽지 않았다.


반면 연구팀은 기존의 이러한 한계를 뒤집는 개발 성과를 내놨다. 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행, 중국의 LLM '딥시크(DeepSeek)'처럼 제한된 자원으로도 고성능 언어 모델 구축이 가능하다는 것을 입증했다.


공개된 영어 모델을 활용했지만, 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 포함했다. 이는 연구팀이 고성능의 독자 언어 모델을 개발할 수 있는 기술 역량을 갖추고 있음을 의미한다.


연구팀이 개발한 'Llama-Thunder-LLM'은 3TB의 한국어 웹 데이터를 수집·전처리해 기존에 공개된 Llama 모델에 연속 학습(Continual Pre-training)과 사후 학습(Post Training) 등의 개량 기법을 적용한 한국어 특화 거대 언어 모델로 설명된다.


연속학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 특정 능력을 확장하는 과정을, 사후 학습은 사용자의 질의응답 등 특정 작업 성능을 높이기 위해 수행하는 추가 미세조정학습을 의미한다.


한국어의 문법적 특성을 반영한 토크나이저 'Thunder-Tok'은 기존 Llama 토크나이저보다 토큰 수를 44% 절약해 추론 속도와 학습 효율성을 동시에 높였다. 다음 토큰을 1개씩 차례로 생성하는 현재의 AI 모델은 생성하는 토큰 수가 적을수록 운영비용이 줄어드는 효과가 있다.


연구팀이 자체 개발한 한국어 평가용 데이터셋을 포함한 'Thunder-LLM' 한국어 벤치마크는 한국어 LLM의 성능을 객관적이고 체계적으로 평가할 수 있는 기반을 제공한다. 데이터셋은 AI 모델 학습·테스트·데이터 시각화·연구 또는 통계 분석 등의 목적으로 사용되는 구조화된 데이터 집합을 말한다.


이재진 교수는 "이번 연구는 대기업, 해외 빅테크 기업이 아닌 학계도 자주적 LLM을 개발할 수 있다는 가능성을 입증하고, 한국의 소버린 AI에 기여한 의미 있는 결과"라며 "연구팀은 한국어 기반의 LLM과 토크나이저, 벤치마크 데이터셋, 개발 과정 모두를 온라인에 공개해 누구나 후속·재현 연구에 활용할 수 있는 기반을 마련했다"고 말했다.


소버린 AI는 '자주적인, 주권이 있는'이라는 의미의 소버린(Sovereign)에 AI를 붙인 이름으로, 특정 국가가 자국에서 독립적으로 운영·통제할 수 있는 AI 시스템을 의미한다.


연구 성과는 누구나 자유롭게 이용할 수 있도록 '초거대 AI 모델 및 플랫폼 최적화 센터' 웹페이지에 공개됐다.


AD

한편 이번 연구는 과학기술정보통신부와 한국연구재단이 추진하는 선도연구센터(ERC)사업의 지원으로 수행됐다.




대전=정일웅 기자 jiw3061@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 25.12.1606:40
     ⑥ 생존과 직결되는 복지 문제로 챙겨야…"진단체계 만들고 부처 간 연계 필요"
    ⑥ 생존과 직결되는 복지 문제로 챙겨야…"진단체계 만들고 부처 간 연계 필요"

    편집자주'장보기'를 어렵다고 느낀 적 있나요? 필요한 식품은 언제든 온·오프라인으로 살 수 있는 시대에 상상조차 불가능한 일이지만 대한민국에는 걸어서 갈 슈퍼도 없고, 배달조차 오지 않아 먹거리를 구하기 어려운 지역이 있습니다. 사막에서 오아시스 찾기처럼 음식을 살 수 없는 이곳을 '식품사막'이라 부릅니다. 식품사막은 고령화, 지방소멸, 정보격차 등으로 점점 넓어지고 있습니다. 장보기라는 일상의 불편함이 어떤

  • 25.12.1606:30
    "케첩은 알아도 토마토는 본 적 없다"는 美…일본은 달걀 아닌 "회·초밥이 왔어요"⑤
    "케첩은 알아도 토마토는 본 적 없다"는 美…일본은 달걀 아닌 "회·초밥이 왔어요"⑤

    편집자주'장보기'를 어렵다고 느낀 적 있나요? 필요한 식품은 언제든 온·오프라인으로 살 수 있는 시대에 상상조차 불가능한 일이지만 대한민국에는 걸어서 갈 슈퍼도 없고, 배달조차 오지 않아 먹거리를 구하기 어려운 지역이 있습니다. 사막에서 오아시스 찾기처럼 음식을 살 수 없는 이곳을 '식품사막'이라 부릅니다. 식품사막은 고령화, 지방소멸, 정보격차 등으로 점점 넓어지고 있습니다. 장보기라는 일상의 불편함이 어떤

  • 25.12.1406:30
     ④ 이동식 마트는 적자…지원 조례는 전국 4곳 뿐
    ④ 이동식 마트는 적자…지원 조례는 전국 4곳 뿐

    편집자주'장보기'를 어렵다고 느낀 적 있나요? 필요한 식품은 언제든 온·오프라인으로 살 수 있는 시대에 상상조차 불가능한 일이지만 대한민국에는 걸어서 갈 슈퍼도 없고, 배달조차 오지 않아 먹거리를 구하기 어려운 지역이 있습니다. 사막에서 오아시스 찾기처럼 음식을 살 수 없는 이곳을 '식품사막'이라 부릅니다. 식품사막은 고령화, 지방소멸, 정보격차 등으로 점점 넓어지고 있습니다. 장보기라는 일상의 불편함이 어떤

  • 25.12.1306:30
    "창고에 쟁여놔야 마음이 편해요"…목숨 건 장보기 해결하는 이동식 마트 ③
    "창고에 쟁여놔야 마음이 편해요"…목숨 건 장보기 해결하는 이동식 마트 ③

    편집자주'장보기'를 어렵다고 느낀 적 있나요? 필요한 식품은 언제든 온·오프라인으로 살 수 있는 시대에 상상조차 불가능한 일이지만 대한민국에는 걸어서 갈 슈퍼도 없고, 배달조차 오지 않아 먹거리를 구하기 어려운 지역이 있습니다. 사막에서 오아시스 찾기처럼 음식을 살 수 없는 이곳을 '식품사막'이라 부릅니다. 식품사막은 고령화, 지방소멸, 정보격차 등으로 점점 넓어지고 있습니다. 장보기라는 일상의 불편함이 어떤

  • 25.12.1206:40
    "새벽배송은 사치, 배달이라도 됐으면"…젊은 사람 떠나자 냉장고가 '텅' 비었다 ②
    "새벽배송은 사치, 배달이라도 됐으면"…젊은 사람 떠나자 냉장고가 '텅' 비었다 ②

    편집자주'장보기'를 어렵다고 느낀 적 있나요? 필요한 식품은 언제든 온·오프라인으로 살 수 있는 시대에 상상조차 불가능한 일이지만 대한민국에는 걸어서 갈 슈퍼도 없고, 배달조차 오지 않아 먹거리를 구하기 어려운 지역이 있습니다. 사막에서 오아시스 찾기처럼 음식을 살 수 없는 이곳을 '식품사막'이라 부릅니다. 식품사막은 고령화, 지방소멸, 정보격차 등으로 점점 넓어지고 있습니다. 장보기라는 일상의 불편함이 어떤

  • 25.12.1810:59
    이재명 대통령 업무 스타일은…"똑부" "구축함" "밤잠 없어"
    이재명 대통령 업무 스타일은…"똑부" "구축함" "밤잠 없어"

    정부 부처 업무 보고가 계속되고 있다. 오늘은 국방부 보훈부 방사청 등의 업무 보고가 진행된다. 업무 보고가 생중계되는 것에 대해 강유정 대통령실 대변인은 "감시의 대상이 되겠다는 의미, 정책이 어떻게 만들어지는지 보여주는 것"이라고 설명했다. 업무 보고가 이루어지면서 이재명 대통령의 업무 스타일에 대한 관심도 커지고 있다. 대통령실 참모들과 대통령과 같이 일했던 이들이 말하는 '이재명 업무 스타일'은 어떤 것인

  • 25.12.0607:30
    한국인 참전자 사망 확인된 '국제의용군'…어떤 조직일까
    한국인 참전자 사망 확인된 '국제의용군'…어떤 조직일까

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'■ 진행 : 소종섭 정치스페셜리스트■ 연출 : 이미리 PD■ 출연 : 이현우 기자 우크라이나 전쟁에 참전했다가 사망한 한국인의 장례식이 최근 우크라이나 키이우에서 열린 가운데, 우리 정부도 해당 사실을 공식 확인했다. 우크라이나와 러시아 매체 등에서 우크라이나 측 국제의용군에 참여한 한국인이 존재하고 사망자도 발생했다는 보도가 그간 이어져 왔지만, 정부가 이를 공식적으로 확

  • 25.12.0513:09
    김용태 "이대로라면 지방선거 못 치러, 서울·부산도 어려워"
    김용태 "이대로라면 지방선거 못 치러, 서울·부산도 어려워"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 박수민 PD■ 출연 : 김용태 국민의힘 의원(12월 4일) "계엄 1년, 거대 두 정당 적대적 공생하고 있어""장동혁 변화 임계점은 1월 중순. 출마자들 가만있지 않을 것""당원 게시판 논란 조사, 장동혁 대표가 철회해야""100% 국민경선으로 지방선거 후보 뽑자" 소종섭 : 김 의원님, 바쁘신데 나와주셔서 고맙습니다. 김용태 :

  • 25.12.0415:35
    강전애x김준일 "장동혁, 이대로면 대표 수명 얼마 안 남아"
    강전애x김준일 "장동혁, 이대로면 대표 수명 얼마 안 남아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 이경도 PD■ 출연 : 강전애 전 국민의힘 대변인, 김준일 시사평론가(12월 3일) 소종섭 : 국민의힘에서 계엄 1년 맞이해서 메시지들이 나왔는데 국민이 보기에는 좀 헷갈릴 것 같아요. 장동혁 대표는 계엄은 의회 폭거에 맞서기 위한 것이었다고 계엄을 옹호하는 듯한 메시지를 냈습니다. 반면 송원석 원내대표는 진심으로

  • 25.12.0309:48
    조응천 "국힘 이해 안 가, 민주당 분화 중"
    조응천 "국힘 이해 안 가, 민주당 분화 중"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 이미리 PD■ 출연 : 조응천 전 국회의원(12월 1일) 소종섭 : 오늘은 조응천 전 국회의원 모시고 여러 가지 이슈에 대해서 솔직 토크 진행하겠습니다. 조 의원님, 바쁘신데 나와주셔서 고맙습니다. 요즘 어떻게 지내시나요? 조응천 : 지금 기득권 양당들이 매일매일 벌이는 저 기행들을 보면 무척 힘들어요. 지켜보는 것


다양한 채널에서 아시아경제를 만나보세요!

위로가기