한국형 생성형AI
만드는 것도 중요하지만, 이후 대비도 중요
생성형AI, 뉴스 저작권 침해
소송전 남발 없도록 교통정리 미리 해야
![[초동시각]AI시대에도 '서비스 군만두' 같은 언론 기사](https://cphoto.asiae.co.kr/listimglink/1/2024110613053188484_1730865932.jpg)
유튜브만 보고 세상 소식을 접하는 이들은 잘 모를 수 있지만, 꽤 이름이 알려진 유튜버들도 기사 제목을 섬네일(미리보기 이미지)에 그대로 베끼고 방송에서 기사 내용을 읊곤 한다. 영상 말미에 출처를 밝히지 않을까 기대하는 건 오산이다. 한국 사람들에게 기사란 포털과 사회관계망서비스(SNS)에서 마음껏 볼 수 있는 서비스다. 그러다보니 중국집 서비스 군만두처럼 공짜인 게 당연하다.
유감스럽게도 생성형 인공지능(AI)은 유튜브의 이런 세계관을 그대로 물려받았다. 오픈AI의 챗GPT나 구글의 제미나이에 한국어로 질문하면 국내 언론사 기사를 보고 학습한 듯한 답변들이 튀어나온다. 물론 유튜버처럼 출처는 밝히지 않는다. 네이버의 생성형 AI 하이퍼클로버도 처음에는 이런 방식으로 사용자를 응대했다. 그러다 한국 언론사들이 기사 무단 사용 문제를 제기하자 한발 물러섰다. 기사 대신 네이버의 커뮤니티와 블로그, 댓글을 통해 학습하는 방식으로 바꾼 것이다. 하지만 사람들이 올리는 온갖 종류의 글도 알고 보면 기사를 통째로 긁어 옮기거나 기사를 읽고 쓰는 내용이 대부분이다.
중국 딥시크는 국내 AI업계에 충격과 동시에 희망을 줬다. 우리나라 AI 기업들은 이제 '저비용·고성능' 생성형 AI를 스스로 만들 수 있다는 기대에 차 있다. "그래픽처리장치(GPU) 수천 장을 살 수 있는 추경을 편성하겠다"(국회), "국가AI컴퓨팅센터를 만드는 데 속도를 내겠다"(과학기술정보통신부), "딥시크 수준의 모델을 오픈소스로 공개하겠다"(LG AI연구원). 전부 지난 한 주 동안 벌어진 일이다.
한국의 AI 경쟁력을 높이려면 생성형 AI 모델 개발도 중요하지만 이후 대비도 중요하다. 신뢰할 수 있는 콘텐츠를 정당한 방법으로 학습시키는 게 관건이다. 오픈AI는 지난해 타임지와 계약을 맺고 챗GPT에 100년 치 기사를 학습시켰다. 유럽판 오픈AI라 불리는 프랑스의 미스트랄 AI도 AFP와 뉴스제공 계약을 맺었다. 아무리 인터넷에 수많은 정보가 있다고 하지만 결국 확인을 거쳐 정제한 정보를 AI에 학습시키는 게 답변의 정확성을 높일 수 있다는 방증이다.
이런 합의가 있기까지 빅테크(대형 정보통신 기업)와 전 세계 언론사 간 뉴스 사용권을 두고 치열한 소송전이 있었다. 한국은 이를 반면교사 삼아 법으로 저작권에 관한 교통정리를 미리 하는 방법도 고려해봐야 한다. AI 경쟁력을 키워야 하는 우리나라에서 소송까지 남발된다면 안 그래도 뒤처진 마라톤 선수의 발목을 잡는 격이다. 마침 문화체육관광부가 '생성형 AI 사업자는 AI 학습 데이터의 출처를 공개해야 한다'는 내용의 AI기본법 개정안 발의를 준비 중이라고 한다. 이 개정안이 통과되면 AI 학습과 뉴스 저작권에 대한 정책이 자연스럽게 공론화될 거다.
제미나이 애플리케이션(앱)을 열고 '한국 저출산 정책에 대해 기사를 바탕으로 비판적으로 평가해줘'라고 입력해 봤다. 대답은 청산유수였지만 정확한 출처는 밝히지 않았다. 다시 '어떤 기사를 바탕으로 대답한 거야'라고 질문하자 그제야 한국 언론사 이름 대여섯 개와 기사 제목을 보여줬다. 이번에는 '한국 언론사 기사를 무료로 사용해도 괜찮아'라고 물었다. 제미나이는 '여러 기사를 종합했고 특정 기사를 복사한 건 아니다'고 변명했다.
지금 뜨는 뉴스
마지막으로 '저작권 문제를 해결하려면 어떻게 해야 할까'라고 의견을 구해봤다. 제미나이는 '계약 및 라이선스 활용'을 예로 들었다. 지금껏 어떤 빅테크도 한국 언론사에 뉴스 사용료를 지불했다는 말은 들어보지 못했다. 하지만 앞으로 어떻게 해야 할지 이들의 AI는 이미 알고 있었다.
심나영 차장 sny@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>