[뉴웨이브]GPT-3은 한국어의 미래를 어떻게 바꿀까

최근 뉴스 기사나 시(詩)를 척척 써내는 자연어처리(NLP) 인공지능(AI) 모델인 GPT-3(Generative Pre-Training 3)가 개발돼 세상을 깜짝 놀라게 했다. AI 연구에서 사람인지 AI인지를 판단하는 튜링 테스트(Turing Test)가 있다. 컴퓨터와의 대화에서 컴퓨터의 반응을 인간의 반응과 구별할 수 없다면 컴퓨터가 스스로 사고할 수 있는 것으로 간주한다는 것이다. 물론 GPT-3의 한계도 분명 존재하지만, 그 능력은 우리가 그동안 예상했던 것을 뛰어넘는 것이 사실이다.

GPT-3는 지난 6월 초 오픈AI라는 연구소에서 발표한 AI 언어 모델로 약 4990억개의 데이터 세트 중 가중치 샘플링을 한 3000억여개로 학습했다. 모델 훈련에 들어간 매개변수만 1750억개다. 수년간 인터넷에 올라온 5조개 단위의 문서 데이터 세트를 학습한 것인데, 간단한 키워드를 제시하면 이에 걸맞은 대답을 해준다. 한 번의 모델 학습에만 수십억 원 정도의 컴퓨팅 용량이 소모되는 것으로 예상되는 이 모델은 데이터 사이즈와 규모 면에서 세계 최강이다. 베타 버전을 체험한 AI 연구자들도 혀를 내두를 정도로 놀라운 예제들이 인터넷에 넘쳐난다. 학습 데이터에는 한국어도 포함돼 한국어 질문에 답하거나 자연스러운 한국어 기사도 만들 수 있다.

국내에서도 한국어 기반 NLP 모델에 대한 연구가 활발히 진행 중이다. 지난 6월 SK텔레콤의 연구진은 한국어 위키 프로젝트, 한국어 뉴스와 기타 소스들을 활용해서 문장 1억2500만개와 단어 16억개를 기반으로 KoGPT-2라는 모델을 오픈 소스로 공개해 시장에서 많은 주목을 받았다. KoGPT-2라는 이름에서 알 수 있듯 기존 GPT-2 모델을 한국어로 학습시켰다. SK텔레콤은 아마존의 머신러닝 연구진과 함께 아마존웹서비스(AWS) 클라우드의 64개 그래픽처리장치(GPU)를 1주일 동안 사용해 모델을 완성했다. GPT-3가 유료로 서비스될 예정임을 감안하면 이를 오픈 소스로 공개한 것이 더욱 눈에 띈다.

GPT-3는 지난해 초 발표된 GPT-2에서 더 발전된 모델로, 더 많은 데이터를 기반으로 더 많은 컴퓨팅 용량으로 학습한 점이 차별화된다. GPT-2 역시 당시 놀라운 성능을 보인 것을 감안하면 데이터 크기와 컴퓨팅 용량은 AI 발전에 중요한 역할을 하고 있음을 알 수 있다. 그러나 일부 국내 AI 연구자들은 GPT-3가 아무리 좋은 성능을 갖췄더라도 한국어 학습 데이터가 절대적으로 부족하다면 이를 활용하는 것이 어렵다고 말한다.

이제 AI가 한국어의 미래를 바꿀 날이 멀지 않았다. 정부에서도 디지털 뉴딜을 통한 AI 학습용 데이터 구축에 투자하는 등 미래를 위한 준비를 착착 진행하고 있다. 대기업들도 대규모 한국어 데이터 수집에 적극 나서고 있다. KoGPT-2와 같은 고급 언어 모델 개발을 위해서는 많은 양의 학습 데이터, 상당한 양의 컴퓨팅 자원, NLP에 대한 전문 지식이 필요하다.

하지만 클라우드는 누구나 쉽게 머신러닝을 활용하고, 이에 필요한 대용량 IT 자원을 제공해 학습할 수 있는 환경을 마련해준다. 개발자들은 더 적은 수의 GPU를 사용해 더 빠른 모델의 학습이 가능하다. 특히 이들 기술이 오픈 소스로 공개됨으로써 누구나 쉽게 접근해 활용할 수 있는 길이 열린 것은 큰 성과라 하겠다. 한국에서도 선순환 생태계가 만들어지고 있으며, 이를 기반으로 다양한 아이디어가 쏟아져 나올 것으로 기대된다.

윤석찬 AWS 수석 테크에반젤리스트

<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

ⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스