트릴리온랩스 신재민 대표 인터뷰
"한국어 데이터 학습한 한국어 LLM 개발"
카카오벤처스 등으로부터 57억원 투자 유치
“개발 단계에서부터 한국어를 심어 한국인 같은 거대언어모델(LLM)을 만들어 나가겠습니다”
최근 서울 강남 공유오피스에서 만난 신재민 트릴리온랩스 대표는 현재 개발중인 한국어 기반 LLM을 이렇게 설명했다. 올해 4월 설립된 트릴리온랩스는 최근 스트롱벤처스, 카카오벤처스, 베이스인베스트먼트, 더벤처스, 미국 소재 굿워터캐피탈, 뱀 베처스로부터 420만달러(약 57억원) 규모의 프리-시드 투자를 유치했다.
트릴리온랩스가 투자를 유치할 수 있었던 이유는 한국어 LLM 파운데이션 모델을 만들겠다는 사업모델이 큰 관심을 끌었기 때문이다. 기존 상용화된 한국어 LLM들이 영어 데이터로 학습된 영어 모델에 한국어를 미세조정(파인튜닝)해 제공한다면 트릴리온랩스는 학습부터 한국어를 투입하겠다는 것이 목표다. 신 대표는 "한국어 데이터를 대규모로 넣어서 한국어로 답하는 LLM을 만들어 한국인답게 똑똑한 인공지능을 만들려고 한다"고 했다. 이를 통해 한국이 강점을 보이는 콘텐츠, 첨단 제조업 등 핵심 산업군의 경쟁력을 높이는 게 목표다.
그는 한국어 최적화 LLM 예시 중 하나로 ‘이메일 작성 업무’를 들었다. 신 대표는 "챗 GPT에서 업무 이메일을 작성한다면 전반적인 인사말부터 구조까지 영어 문화권의 형식으로 작성된다"며 "가령 마지막 문구에서 영어 이메일 양식인 ‘sincerely 신재민’을 그대로 번역한 ‘감사합니다 신재민으로’ 나오는 식"이라고 설명했다. 이어 그는 "한국어로 학습된 LLM의 경우 실제 한국인이 쓴 것처럼 마지막 문구가 ‘신재민 드림’으로 끝나는 것"이라고 설명했다. 한국어 LLM 모델이 한국 문화와 정서를 반영해 답을 도출해 내는 것이다. 그는 "정말 미묘한 차이지만 한국인이 쓴 것처럼 보이는지 아닌지를 보여주는 사례"라고 말했다.
데이터 확장 차원에서 영어, 중국어, 일본어의 데이터도 학습한다. 신 대표는 "전 세계의 정보 절반이 영어이기 때문에 이는 가져올 수밖에 없다"며 "한자 문화권인 중국어, 일본어를 가져온다면 가령 세 나라에서 같은 한자를 쓰는 대학교(大學校)의 경우 같은 객체로 취급하기 때문에 학습이 더 효율적이다"고 전했다.
신 대표는 그간의 경험과 쌓아온 지식을 적극적으로 활용해 LLM 개발에 나설 계획이다. 신 대표는 홍콩과기대 컴퓨터 사이언스 학부·석사 전공을 했으며 이후 아마존 알렉스 AI 연구 인턴, 네이버의 LLM인 하이퍼클로바X 개발 핵심 연구원을 지냈다. 합성 데이터 생성, 공감 대화 시스템, 한국어 자연어처리(NLP)에 관한 논문을 다수 작성했다. 신 대표는 특히 합성 데이터 지식의 활용을 강조했다. 그는 "일례로 변호사를 지원하는 AI를 만들고 싶다면 변호사를 고용해 데이터를 만들어야 하지만 비용 부담이 크다"며 "합성데이터는 소수의 변호사 데이터를 기반으로 품질 좋은 데이터를 만들 수 있다"고 말했다.
황서율 기자 chestnut@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>