본문 바로가기
bar_progress

글자크기 설정

닫기

난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력'

시계아이콘01분 55초 소요
언어변환 숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
뉴스듣기

네이버 AI 학습엔 '국어학 지식' 필수
AI 성능, 순수학문 우위가 좌우할 수도

오픈AI의 인공지능(AI) 챗봇 '챗GPT(ChatGPT)'. 국내 IT 대기업 네이버가 개발한 '하이퍼클로바'. 두 거대 기계 지능의 성능을 정확히 1:1로 놓고 비교할 수는 없지만, 네이버는 하이퍼클로바의 성능이 적어도 '한국어'에서만큼은 최고라고 자처한 바 있다.


네이버가 가진 자신감의 원천은 무엇일까. 물론 하이퍼클로바는 챗GPT보다 훨씬 방대한 양의 한국어 데이터를 학습했다. 그러나 그것만으로는 확실한 우위를 점하기 힘들다. 하이퍼클로바를 최고의 한국어 AI로 만들어 주는 것은 다름 아닌 '국어학'에 있다.


美 챗GPT vs 韓 하이퍼클로바
난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력' [이미지출처=픽사베이]
AD

챗GPT와 하이퍼클로바를 완전히 동일선상에 두기는 힘들다. 챗GPT는 오픈AI의 대형 자연어 처리(NLP) 모델 'GPT-3'를 기반으로 한 챗봇이며, 하이퍼클로바는 번역, 검색 보조, 녹취록 작성 등 다양한 서비스와 연동된 다목적 NLP다.


언뜻 보기엔 GPT-3와 하이퍼클로바는 명확히 우열을 가리기 힘들어 보인다. AI 모델의 1차 성능을 좌우하는 '모델 크기', 즉 매개변수(parameter·패러미터) 개수는 GPT-3가 1750억개, 하이퍼클로바가 2040억개로 유사하다.


난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력' 챗GPT와 하이퍼클로바 비교

네이버에 따르면 하이퍼클로바의 한국어 데이터 학습량은 GPT-3 대비 6500배에 달하지만, 꼭 데이터 세트 크기가 AI의 정확도를 좌우하는 절대적 척도인 것은 아니다. 구글이 지난 6일(현지시간) 야심 차게 공개한 챗봇 '바드'도 무수히 많은 데이터를 학습한 초대형 AI이지만, 첫 시연부터 오류를 범했다.


한국어 이해에 이상적인 네이버 AI…비결은 '국어학'
난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력' 네이버의 인공지능(AI) 하이퍼클로바 로고 / 사진=네이버

네이버는 2021년 '네이버 AI 나우' 컨퍼런스 당시 하이퍼클로바에 대해 "우리말을 가장 잘 이해하고 구사하는 최초의 초대형 한국어 AI"라고 강조했다. 그 자신감은 어디서 기인한 걸까.


2021년 네이버가 공개한 AI 관련 논문 '대형 AI 모델이 가져올 변화는 무엇일까? - 하이퍼클로바 집중 연구'에서 실마리를 찾을 수 있다. 논문에 따르면, 하이퍼클로바는 주로 미국·영국의 연구기관에서 완성된 AI 모델을 '한국어 환경에 맞게' 최적화하는 데 많은 공을 들였다.


대화의 맥락을 파악해 정확한 답변을 하는 챗GPT는 마치 '말의 의미'를 이해하는 것처럼 보이지만, 통념과는 달리 컴퓨터는 우리처럼 언어를 알아듣는 게 아니다.


대신 AI는 사람의 말을 최소 단위로 쪼개 컴퓨터가 인지할 수 있는 바이트 데이터로 치환한 뒤, 거기서 패턴을 찾아내 가장 적절한 단어들을 조합한다. 이런 일련의 과정을 '토큰화(Tokenization)'라고 한다. 하이퍼클로바와 챗GPT의 가장 큰 차이는 토큰화 접근법에 있다.


영어권 국가에서 주로 사용되는 챗GPT는 알파벳 문자에 어울리는 토큰화 기법인 바이트 페어 인코딩(BPE)을 사용한다. 하지만 BPE는 문자를 나열해 의미 있는 단어를 만드는 영어에 적합하다.


반면 한국어의 낱말 조합 방식은 영어만으로는 완전히 커버할 수 없다. 네이버 또한 기존 BPE 방식으로는 "'젝' 등 일부 한글 문자가 토큰으로 포함될 수 없다"는 사실을 알았으며, 이 한계를 극복하고자 '한국어 형태소(의미를 가지는 말의 최소 단위)'에 어울리는 토큰 나눔 방식을 개발했다. 이 때문에 하이퍼클로바는 챗GPT보다 훨씬 한국어 의미 파악 성능에서 앞서나갈 수 있었다.


AI의 역설…순수학문이 성능 좌우할 수도
난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력' 오픈AI 자연어처리 모델 챗GPT / 사진=연합뉴스

하이퍼클로바의 사례는 최첨단 인공지능 개발에 있어 '국어학 전문가'가 얼마나 중요한지 보여주는 사례다. AI를 이루는 모델 자체는 수학이나 프로그래밍이지만, AI가 인간의 말을 분석할 수 있게 하려면 언어 그 자체에 대한 심도 있는 지식이 전제되어야 하기 때문이다. 이처럼 AI 학습의 배경이 되는 순수학문적 지식을 '도메인 지식'이라고 한다.


AI가 연구, 산업, 예술 등 각계 전반에서 활약할수록 이같은 '도메인 전문가'의 중요성은 더욱 확대될 것으로 보인다. 중앙대 인문콘텐츠연구소 소속 박진호 교수는 2019년 출간한 '딥러닝 기반 자연어 처리에서 도메인 지식의 역할' 논문에서 이런 경향을 짚은 바 있다.


AD

박 교수는 "딥러닝 시대에도 여전히 언어학자의 역할이 중요함을 증명하기 위해 한국어 형태소분석기를 개발했다"라며 "한국어는 의미의 분절이 쉽지 않지만, 분절 과제를 분류 문제로 재설정하면 기계학습으로 더 쉬운 해결이 가능했다"라며 "이 실험은 딥러닝 시대에도 언어학자의 지식이 여전히 중요함을 보여준다"라고 평했다. 우수한 AI는 단순히 IT나 반도체에만 의존하는 게 아니라, 뛰어난 순수학문 토양이 갖춰질 때 꽃피는 셈이다.




임주형 기자 skepped@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

놓칠 수 없는 이슈 픽

  • 25.12.0607:30
    한국인 참전자 사망 확인된 '국제의용군'…어떤 조직일까
    한국인 참전자 사망 확인된 '국제의용군'…어떤 조직일까

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'■ 진행 : 소종섭 정치스페셜리스트■ 연출 : 이미리 PD■ 출연 : 이현우 기자 우크라이나 전쟁에 참전했다가 사망한 한국인의 장례식이 최근 우크라이나 키이우에서 열린 가운데, 우리 정부도 해당 사실을 공식 확인했다. 우크라이나와 러시아 매체 등에서 우크라이나 측 국제의용군에 참여한 한국인이 존재하고 사망자도 발생했다는 보도가 그간 이어져 왔지만, 정부가 이를 공식적으로 확

  • 25.12.0513:09
    김용태 "이대로라면 지방선거 못 치러, 서울·부산도 어려워"
    김용태 "이대로라면 지방선거 못 치러, 서울·부산도 어려워"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 박수민 PD■ 출연 : 김용태 국민의힘 의원(12월 4일) "계엄 1년, 거대 두 정당 적대적 공생하고 있어""장동혁 변화 임계점은 1월 중순. 출마자들 가만있지 않을 것""당원 게시판 논란 조사, 장동혁 대표가 철회해야""100% 국민경선으로 지방선거 후보 뽑자" 소종섭 : 김 의원님, 바쁘신데 나와주셔서 고맙습니다. 김용태 :

  • 25.12.0415:35
    강전애x김준일 "장동혁, 이대로면 대표 수명 얼마 안 남아"
    강전애x김준일 "장동혁, 이대로면 대표 수명 얼마 안 남아"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 이경도 PD■ 출연 : 강전애 전 국민의힘 대변인, 김준일 시사평론가(12월 3일) 소종섭 : 국민의힘에서 계엄 1년 맞이해서 메시지들이 나왔는데 국민이 보기에는 좀 헷갈릴 것 같아요. 장동혁 대표는 계엄은 의회 폭거에 맞서기 위한 것이었다고 계엄을 옹호하는 듯한 메시지를 냈습니다. 반면 송원석 원내대표는 진심으로

  • 25.12.0309:48
    조응천 "국힘 이해 안 가, 민주당 분화 중"
    조응천 "국힘 이해 안 가, 민주당 분화 중"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 이미리 PD■ 출연 : 조응천 전 국회의원(12월 1일) 소종섭 : 오늘은 조응천 전 국회의원 모시고 여러 가지 이슈에 대해서 솔직 토크 진행하겠습니다. 조 의원님, 바쁘신데 나와주셔서 고맙습니다. 요즘 어떻게 지내시나요? 조응천 : 지금 기득권 양당들이 매일매일 벌이는 저 기행들을 보면 무척 힘들어요. 지켜보는 것

  • 25.11.2709:34
    윤희석 "'당원게시판' 징계하면 핵버튼 누른 것"
    윤희석 "'당원게시판' 징계하면 핵버튼 누른 것"

    ■ 방송 : 아시아경제 '소종섭의 시사쇼'(월~금, 오후 4~5시)■ 진행 : 소종섭 정치스페셜리스트 ■ 연출 : 이경도 PD■ 출연 : 윤희석 전 국민의힘 대변인(11월 24일) 아시아경제 '소종섭의 시사쇼'에 출연한 윤희석 전 국민의힘 대변인은 "장동혁 대표의 메시지는 호소력에 한계가 분명해 변화가 필요하다"고 진단했다. 또한 "이대로라면 연말 연초에 내부에서 장 대표에 대한 문제제기가 불거질 것"이라고 내다봤다. 한동훈 전


다양한 채널에서 아시아경제를 만나보세요!

위로가기