시각정보의 텍스트화에 취약한 AI
인간의 감각, 기계가 넘기에는 망망대해
인공지능(AI)이라는 이름과 그것이 하는 일이 대단해 보이기(지금부터 10년쯤) 전, 컴퓨터가 ‘사진을 읽어(narrate)준다’는 웹사이트가 있었다. 기계는 보이는 것을 과연 어떻게 말로 설명해낼지 궁금했다. 제주도 여행길에 찍은 유채와 소나무가 있는 풍경 사진 한 장을 올려봤다. 30분쯤 기다려서 받은 영어 문장은 복잡하고 어수선했다.
“파란 하늘과 들판, 그리고 고요함. 파란 하늘은 여전히 미지의 영역이다. 들판은 농사를 연상시키고 고요함은 불교의 주요 덕목이다. 밝음은 광채라고도 하고 석양은 장밋빛을 띤다. 일몰은 다채롭고 일반적으로 아름답다. 그것은 신이 작별 인사를 하는 방식이다....” 같은, 말이 되기도 하고 안 되기도 하는 시를 닮은 장황한 문장이었다. 내용의 설명이 아니라 연상과 느낌이라니 놀라웠다.
웹사이트는 없어졌지만, 최초로 기계가 평가한 내 사진에 대한 이 문장을 소중하게 간직하고 있다. 운영자는 지금도 사진을 찍으면 사진 대신 문장이 영수증처럼 출력되는 ‘카메라’를 만드는 등 문장과 이미지의 관계를 매개로 한 흥미로운 작업을 한다. 그가 보여주고자 하는 것은 기술이 아니라 기술을 바라보는 예술의 한 방식인 것 같다.
지금 AI는 예술의 흉내와 사실을 벗어난 창작에 더 ‘소질’있다. 단어 몇 개만으로도 화려하고 섬세한 이미지를 만들어내고 유명 작가의 명문을 흉내 낸 글을 써낸다. 약간의 노력을 기울이면 사실보다 더 사실 같은 이미지와 사실보다 더 사실 같은 글을 생산해 낸다.
오히려 취약한 것은 사실의 장면을 담은 사진이나 비디오 같은 시각정보를 글로 옮기는 것이다. 지금 사실적 시각정보를 두고 그것을 텍스트화하는 기술이 쓰이는 분야 중 하나는 안전과 경보 산업이다. CCTV 화면을 보고 ‘사람들이 싸운다’, ‘불이 났다’, ‘물이 넘친다’ 같은 기본적 사실을 추출해서 응용하는 일이다. 아직 초보 단계지만 유용한 기술이다. 사람과 기계를 연결해 세상을 지키고 발전시키는 데 중요한 것은 언어라는 징검다리다.
AI가 말하기 어려운 것은 사물의 이름 즉, 명사가 아니라 동사와 형용사처럼 살아 움직이는 모습과 관계 들이다. 세상에는 온갖 관계와 스침과 교류와 충돌이 있고, 기계는 그것을 구분하고 언어화하기 어렵다. 인간에게는 가장 단순한 편에 속하는, 아름답거나 슬프거나 간절하거나 하는 느낌과 감정의 세계도 기계에게는 망망대해다. 다만 예술은 다른 언어로 대신해서 망망대해를 건너가기도 한다.
그리고 컴퓨터가 읽어 준 내 사진은 이미지처럼 다가왔던 어느 소설에서 반복되는 문장들 같았다.문법 보다 감각으로 읽히는 알듯 말듯한 문장.
'그는 시간이 자신의 주위로 떼지어 모여드는 걸 느낄 수 있었고
그 크고 육중한 덩어리들이
버뮤다에서 부에노스아이레스까지
빽빽하게 - 너무 빽빽하게 들어찬 것을 볼 수 있었다.'
(앤 카슨, ‘빨강의 자서전’, 한겨레출판)
이 소설은 시로 쓰였다. 시는 이미지다. 소설로 쓴 시도 있을까? 있을 것이다.
지금 뜨는 뉴스
굳이 구분하려 들지 않는다면...
허영한 기자 younghan@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
![[언스타그램] '사진을 읽어주겠다'고 했던 AI](https://cphoto.asiae.co.kr/listimglink/1/2024112619240425771_1732616643.jpg)
![[언스타그램] '사진을 읽어주겠다'고 했던 AI](https://cphoto.asiae.co.kr/listimglink/1/2024112619261125772_1732616772.jpg)

