60점 만점에 구글 28점, 네이버 15점
네이버, 어법 맞는 어순 재구성 미흡
AI 번역기, 문학 번역 능력 가장 취약
21일 세종대학교에서 진행된 '인간 번역 vs 인공지능 번역 대회'에서는 인간과 AI 번역기 간 대결 구도가 주목을 받았다. 결과적으로 30점 만점에 인간 번역사는 평균 24.5점, 기계 번역은 10점으로 인간이 월등한 점수를 받았다.
그런데 이 대회에 참여한 AI 번역기 간 차이가 크게 나타났다. 주최 측은 이날 대회 말미에 업체 이름을 가린 점수표만 공개했다. 다음은 아시아경제가 문제와 번역문 답안을 입수해 실제 번역기에 돌린 번역문과 대조한 결과다. 구글이 1등이었고 네이버의 파파고는 이보다 한참 떨어졌다.
업계 관계자는 "네이버 파파고의 경우 글자 수 제한 때문에 인공신경망(NMT) 기술이 제대로 작동하지 않아 점수가 낮게 나온 것 같다"고 말했다.
채점표를 보면 구글은 60점 만점에 28점을 받았다. 한→영 번역 13점, 영→한 번역 15점이었다. 네이버는 15점을 받았다. 한→영 번역에서는 30점 만점에 7점, 영→한 번역에서는 8점이었다.
네이버의 번역 결과물을 살펴보면 단어를 정확하게 해석하지 못했고 문장 배치도 엉성하다. 네이버 번역 결과물만 놓고 보면 문장을 한번에 이해하기가 어렵다.
"잡스는 자신이 개발한 이 미적 감각이 뛰어난 아이폰을 외주를 주어 망치게 하고 싶지 않았다"(원문: He didn't want outsiders messing with his elegant phone)는 번역가의 해석이 대표적이다. 구글은 "그는 외부인들이 그의 우아한 전화를 망치는 것을 원하지 않았다"는 결과를 내놨는데, 네이버는 "그는 외부인들 그의 우아한 전화를 가지고 놀고 원하지 않았다"고 했다.
네이버 번역에 대해 평가위원단은 "90% 이상의 문장이 어법에 맞지 않는 데다 어법에 맞는 형태로 어순 재구성을 하지 않고 원문의 단어순대로 나열하는 경향이 있다"며 "맥락을 파악하지 않고 단순 번역을 한다"고 지적했다.
평가위원단은 구글 번역에 대해 "고유명사 인식과 처리, 금액 단위 처리는 우수하고 인용문이나 따옴표 사용도 양호하고 복문 처리도 상대적으로 양호하다"고 평가했다. 동시에 "일부 단어에 오역이 있고 문맥의 심층적 의미 전달이 미흡했으며 일부 복잡한 문장의 번역 오류가 발생했다"는 점도 지적했다.
심사위원장인 곽중철 한국외국어대학교 교수는 "경제 관련 비문학 문제의 경우 기계 번역도 괜찮은 수준을 보였지만 문학에는 인간의 감정이 녹아들어 있기 때문에 번역기의 능력이 미치지 못한 것 같다"며 "문학 번역은 정확성이 크게 떨어져 문장조차 제대로 구성하지 못한 경우도 상당했다"고 말했다.
한진주 기자 truepearl@asiae.co.kr
이민우 기자 letzwin@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>