본문 바로가기
bar_progress

글자크기 설정

닫기

"영어 기반 LLM 개량" 고성능 한국어 'LLM' 개발 가능성 입증

시계아이콘01분 37초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기

영어 기반의 거대 언어 모델(Large Language Model·이하 LLM)을 개량해 천문학적 비용을 들이지 않고도 '고성능 한국어 LLM' 개발이 가능하다는 것을 국내 연구진이 입증했다.


LLM은 방대한 양의 텍스트 데이터를 학습해 인간의 언어를 이해·생성하는 인공지능(AI) 모델을 말한다.


"영어 기반 LLM 개량" 고성능 한국어 'LLM' 개발 가능성 입증 (왼쪽부터) 손영준 박사과정, 소연경 박사과정, 박찬우 석사과정, 이재진 교수(연구책임자), 김진표 박사과정, 석지헌 박사과정, 조경제 박사과정, 박종원 석사과정, 김종민 박사과정 등 연구팀 구성원들이 기념촬영을 하고 있다. 서울대 이재진 교수 연구팀 제공
AD

4일 한국연구재단에 따르면 서울대 이재진 교수 연구팀은 최근 영어 기반 언어 모델 '라마(Llama)'를 개량해 한국어에 특화된 언어 모델 'Llama-Thunder-LLM'과 한국어 전용 토크나이저 'Thunder-Tok', 한국어 LLM의 성능을 객관적으로 평가할 수 있는 'Thunder-LLM 한국어 벤치마크'를 개발해 온라인에 공개했다.


토크나이저는 문장을 언어 모델이 이해할 수 있는 단위의 단어를 말한다. 벤치마크는 특정 기준과 비교해 성능을 측정·평가하는 것으로 컴퓨터 하드웨어(HW), 소프트웨어(SW) ALC 경영 전략 등 다양한 분야에서 활용된다.


LLM을 이용한 AI 기술은 전 세계적으로 주목받는다. 국내에서도 한국어에 특화된 언어 모델 개발에 관심이 점차 높아지고 있다.


하지만 LLM을 구축하기 위해선 방대한 데이터가 필요하지만, 실상 이를 충족할 만큼 데이터가 충분하지 않은데다 개발하는 데 막대한 비용이 소요돼 LLM 개발은 주로 대기업, 해외 빅테크 기업을 중심으로만 이뤄졌다.


중소 연구기관과 대학에서는 LLM 관련 연구개발을 진행하기가 쉽지 않았다.


반면 연구팀은 기존의 이러한 한계를 뒤집는 개발 성과를 내놨다. 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행, 중국의 LLM '딥시크(DeepSeek)'처럼 제한된 자원으로도 고성능 언어 모델 구축이 가능하다는 것을 입증했다.


공개된 영어 모델을 활용했지만, 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 포함했다. 이는 연구팀이 고성능의 독자 언어 모델을 개발할 수 있는 기술 역량을 갖추고 있음을 의미한다.


연구팀이 개발한 'Llama-Thunder-LLM'은 3TB의 한국어 웹 데이터를 수집·전처리해 기존에 공개된 Llama 모델에 연속 학습(Continual Pre-training)과 사후 학습(Post Training) 등의 개량 기법을 적용한 한국어 특화 거대 언어 모델로 설명된다.


연속학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 특정 능력을 확장하는 과정을, 사후 학습은 사용자의 질의응답 등 특정 작업 성능을 높이기 위해 수행하는 추가 미세조정학습을 의미한다.


한국어의 문법적 특성을 반영한 토크나이저 'Thunder-Tok'은 기존 Llama 토크나이저보다 토큰 수를 44% 절약해 추론 속도와 학습 효율성을 동시에 높였다. 다음 토큰을 1개씩 차례로 생성하는 현재의 AI 모델은 생성하는 토큰 수가 적을수록 운영비용이 줄어드는 효과가 있다.


연구팀이 자체 개발한 한국어 평가용 데이터셋을 포함한 'Thunder-LLM' 한국어 벤치마크는 한국어 LLM의 성능을 객관적이고 체계적으로 평가할 수 있는 기반을 제공한다. 데이터셋은 AI 모델 학습·테스트·데이터 시각화·연구 또는 통계 분석 등의 목적으로 사용되는 구조화된 데이터 집합을 말한다.


이재진 교수는 "이번 연구는 대기업, 해외 빅테크 기업이 아닌 학계도 자주적 LLM을 개발할 수 있다는 가능성을 입증하고, 한국의 소버린 AI에 기여한 의미 있는 결과"라며 "연구팀은 한국어 기반의 LLM과 토크나이저, 벤치마크 데이터셋, 개발 과정 모두를 온라인에 공개해 누구나 후속·재현 연구에 활용할 수 있는 기반을 마련했다"고 말했다.


소버린 AI는 '자주적인, 주권이 있는'이라는 의미의 소버린(Sovereign)에 AI를 붙인 이름으로, 특정 국가가 자국에서 독립적으로 운영·통제할 수 있는 AI 시스템을 의미한다.


연구 성과는 누구나 자유롭게 이용할 수 있도록 '초거대 AI 모델 및 플랫폼 최적화 센터' 웹페이지에 공개됐다.


AD

한편 이번 연구는 과학기술정보통신부와 한국연구재단이 추진하는 선도연구센터(ERC)사업의 지원으로 수행됐다.




대전=정일웅 기자 jiw3061@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 26.02.1414:44
    좁을수록 인기?…수도권에선 중형 면적보다 소형 청약 '러시'
    좁을수록 인기?…수도권에선 중형 면적보다 소형 청약 '러시'

    분양가 상승 흐름으로 인해 수도권 아파트 청약 시장에서 소형 면적이 중형보다 더 큰 인기를 얻고 있다. 지난해엔 소형 청약자 수가 처음으로 중형을 앞서기도 했다. 14일 부동산R114에 따르면 지난해 수도권 아파트 청약자 총 48만5271명 중 전용면적 60㎡ 이하 소형아파트에 21만8047명이 몰린 것으로 파악됐다. 전용 60∼85㎡의 중형 아파트에 21만7322명, 전용 85㎡를 초과하는 대형 아파트에 4만9902명이 접수했다. 한국부동

  • 26.02.1311:00
    정부 발표 2시간 만에 한 단지서 신규매물 3건…갭투자 일시 허용에도 '관망'
    정부 발표 2시간 만에 한 단지서 신규매물 3건…갭투자 일시 허용에도 '관망'

    정부가 다주택자 양도세 중과 조치를 재시행하기로 최종 발표한 이후 시장에선 매물을 내놓겠다는 다주택자의 문의가 늘고 있다. 무주택자가 세입자 있는 다주택자 집을 사게 되면 전월세 계약 종료 때까지 '일시적 갭투자'가 가능하다. 다만 매물이 늘어나면 가격 하락이 예상되는 만큼 매수자들은 서두르지 않고 있다. 앞으로 매물이 더 풀릴 것이라는 전망이 우세하면서 관망하는 것이다. 서울 지역 아파트 값 증가율은 2주 연속

  • 26.02.1310:20
    "지금 아니면 이 가격에 못 사요" 사람들 몰리더니 '잠실 르엘' 보류지 완판
    "지금 아니면 이 가격에 못 사요" 사람들 몰리더니 '잠실 르엘' 보류지 완판

    잠실미성크로바 재건축 조합이 내놓은 서울 송파구 '잠실 르엘' 보류지 10가구가 유찰 없이 첫 입찰에서 전량 낙찰됐다. 감정평가금액보다 5%가량 높은 기준가를 책정했음에도 40여명이 입찰에 참여해 평균 4대 1의 경쟁률을 기록했다. 13일 롯데건설에 따르면 조합은 최고가 공개경쟁입찰 방식으로 전용면적 59㎡B 3가구와 74㎡B 7가구를 매각했다. 입찰 기준가는 59㎡가 29억800만~29억9200만원, 74㎡가 33억1800만~35억3300만원

  • 26.02.1216:38
    다주택자 매물 늘자 서울 아파트값 상승폭 2주 연속 축소…강남 둔화 뚜렷
    다주택자 매물 늘자 서울 아파트값 상승폭 2주 연속 축소…강남 둔화 뚜렷

    서울 아파트 매매가격 상승 폭이 2주 연속 좁혀졌다. 다주택자 양도소득세 중과 유예 종료 시점이 다가오면서 다주택자들이 세 부담을 줄이기 위해 호가를 낮춘 매물을 내놓고 있는 것이 주된 원인으로 꼽힌다. 한국부동산원이 12일 발표한 2월 2주 차(9일 기준) 주간 아파트 가격 동향 자료를 보면, 서울 아파트 평균 매매가격 상승률은 직전 주보다 0.05%포인트 낮은 0.22%로 집계됐다. 다만 서울 아파트값은 53주째 상승세를 이

  • 26.02.1211:20
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락
    양천구 33평 24억 아파트 21억까지 떨어져…매물 풀리고 호가 하락

    "인근 신축 아파트 33평(전용면적 84㎡)이 전에는 24억원에 호가가 형성됐어요. 그런데 양도세 중과 발표가 나오고 21억5000만원에 매물이 나왔고 이젠 21억원에라도 팔겠다고 하네요."(서울 양천구 신정동 A공인) 정부의 다주택자 양도세 중과 방침이 확정된 이후 시장에선 체감할 만큼 다주택자 매물이 풀리고 있다. 수억원씩 호가를 낮춰 내놓거나 세입자가 있어 당장 정리하기 어려운 경우엔 위로금 명목의 웃돈을 주고 매각하

  • 26.02.0307:05
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]
    전문가 4인이 말하는 '의료 생태계의 대전환'[비대면진료의 미래⑥]

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:04
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?
    벼랑 끝에 선 '닥터나우 방지법'…플랫폼 규제 해법은?

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:03
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면
    탈모·여드름 치료제만 급증…'처방전 자판기' 막으려면

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:02
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도
    "집에서 진료받고 약 배송은 불가?"…'반쪽짜리' 제도

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0307:01
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수
    "환자 편의 높이되 더 안전하게"…하위법령 논의 착수

    편집자주병원 진료를 위해 대기실에 긴 줄을 서는 대신 스마트폰 화면 속 의사를 만나는 시대. 비대면진료가 코로나19 팬데믹, 의정 갈등 시기 한시적 허용과 시범사업 등을 거쳐 올 연말 본 시행을 앞두고 있다. 격오지와 취약계층의 의료 공백을 메우는 편리함과 함께 약 배송 금지에 따른 이용 한계, 의약품 오남용 우려 등이 공존하고 있고, 의료계와 플랫폼업계, 환자단체 사이의 시각차 또한 여전히 팽팽하다. 의료산업의 패

  • 26.02.0511:23
    박원석 "전한길, 이석기보다 훨씬 더 위험"
    박원석 "전한길, 이석기보다 훨씬 더 위험"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금·오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 박수민 PD■ 출연 : 박원석 전 국회의원(2월4일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 소종섭의 시사쇼 시작하겠습니다. 오늘은 박원석 전 의원과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 박원석 : 네, 안녕하십니까. 소종섭 : 오늘 장

  • 26.02.0314:25
    장성철 "한동훈의 알파와 오메가는 배지"
    장성철 "한동훈의 알파와 오메가는 배지"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 장성철 공론센터 소장(2월 2일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까. 장성철 공론센터 소장과 함께 여러 가지 이슈들 짚어보도록 하겠습니다. 이재명 대통령 SNS 정치, 지난주 토요일부터 오늘 오전까지 9개를 올렸습니다.

  • 26.01.2907:47
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'
    정청래 비판한 김민석, 치열한 두 사람의 '장군멍군'

    김민석 국무총리와 정청래 더불어민주당 대표가 '장군멍군'을 하고 있다. 보이지 않는 힘겨루기가 한창이다. 올 8월 전당대회를 향한 움직임이다. '8월 전대'는 누가 당 대표가 되느냐를 넘어 여권의 권력 지형을 가르는 의미가 있다. 정 대표가 연임에 성공한다면 그의 정치적 힘은 지금보다 더 커진다. 여권 내 위상이 올라가는 것도 당연하다. 2028년 국회의원 선거의 공천권을 쥐기 때문이다. 김민석 국무총리가 대표가 된다면

  • 26.01.2811:24
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"
    이언주 "합당은 선거에 악재, 정 대표 행동 용서받기 어려워"

    여당인 더불어민주당 내 긴장감이 높아가는 흐름이다. '명청대전'이라는 말이 나오더니 최근에는 최고위원회에서 직접 언쟁을 주고받았다. 일부 최고위원들이 회의에 불참하는 일도 벌어졌다. 8월 전당대회를 앞둔 세력 격돌이 서서히 본격화하는 모양새다. 이언주 더불어민주당 수석최고위원은 그 한가운데 있다. 최근 이 수석최고위원과 두 차례 인터뷰했다. 지난 21일 '소종섭의 시사쇼'에 출연해 1시간 인터뷰했고, 27일엔 전화

  • 26.01.2611:31
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"
    윤희석 "오세훈 프레임 바꿔야", 서용주 "정원오 재료 좋아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 마예나 PD■ 출연 : 서용주 맥정치사회연구소장, 윤희석 전 국민의힘 대변인(1월 22일)※ 기사 내용을 인용할 때는 반드시 '소종섭의 시사쇼'를 명기해 주시기 바랍니다. 소종섭 : 여러분 안녕하십니까? 소종섭의 시사쇼 시작하겠습니다. 서용주 맥 정치사회연구소장님과 윤희석 전 국민의힘 대변인, 두 분 모시고 최근 여


다양한 채널에서 아시아경제를 만나보세요!

위로가기