장소, 상황, 행동까지 식별해내는 '구글포토'"머신러닝 등 AI 기술 힘입어 컴퓨터 비전 기술 급속도로 발전"
닐 알드린 구글 컴퓨터비전 리서치팀 SW엔지니어가 구글 포토와 AI 기술에 대해 설명하고 있다.
[아시아경제 한진주 기자] 구글 포토가 컴퓨터 비전 기술 발전에 힘입어 나날이 똑똑해지고 있다. 구글은 AI 기술을 활용해 컴퓨터 비전 기술이 수 년 내에 인간을 뛰어넘는 이미지 인식 능력을 가질 수 있을 것이라고 전망했다.22일 구글코리아는 강남구 역삼동 본사에서 'AI 혁신과 구글 포토 들여다보기' 포럼을 열고 구글 포토와 구글의 컴퓨터 비전 기술에 대해 소개했다. 닐 알드린 구글 컴퓨터 비전 리서치팀 엔지니어는 "구글의 미래 연구 방향은 초인간적 이미지 인식 기술을 달성하는 것"이라며 "고양이가 있는 사진을 보고 어떤 품종인지까지 인식하게 될 것"이라고 설명했다.구글은 '컴퓨터 비전 기술'을 통해 이미지 인식 능력을 개선해왔다. '컴퓨터 비전'은 AI의 한 분야로 컴퓨터를 사용해 인간의 시각적인 인식 능력을 재현하는 연구 분야를 말한다. 이미지 인식, 영상 인식 등에 신경망 네트워크가 적용된다. 이미지 속 요소들을 판별해내도록 여러 신경망을 훈련시켜 정교한 분석이 가능하도록 해준다.구글은 AI 기술을 '구글 포토'에 접목시켜 자동으로 사진을 분류하고, 사진 속 사물이나 행동, 상황을 구분한다. 구글 포토는 2015년 출시된 사진·동영상 관리 서비스로 용량 제한 없이 사진을 저장할 수 있다. 구글 포토는 인물이나 사물을 구별한다. 이외에 스쿠버, 검도 등 행동도 골라내서 보여준다. 예를 들어, '생일'을 검색하면 생일 케이크가 나온 사진을, '남양주'를 검색하면 남양주에서 찍은 사진을 찾아서 보여준다.닐 알드린 엔지니어는 "휴가나 운동회 같은 이벤트는 단순히 사진의 픽셀만 분석해서는 접근할 수 없고 날짜나 시간, 장소, 동일한 이미지를 찾도록 추가적인 신호를 준다"며 "타 컴퓨터 비전 시스템의 경우 이정표나 상품 브랜드, 이미지의 텍스트를 토대로 이미지를 추정하기도 한다"고 설명했다.구글은 자동으로 이미지의 캡션을 생성해내는 '오픈 이미지 데이터셋'을 AI 연구에 활용하고 있다. '오픈 이미지 데이터셋'은 사진마다 라벨(사진에 표시된 물체나 상황을 설명하는 단어)이 부착된 900만개의 이미지 URL로 구성돼있다. 사진 하나당 평균 8개의 라벨이 달린다. 이 라벨들은 컴퓨터 비전 기술에 의해 자동으로 생성되며, 라벨의 오류는 인간 평가자들이 찾아내서 삭제한다. 오픈 이미지 데이터셋은 구글과 카네기 멜런대학교 코넬대학이 함께 만들어냈고 일반 대중과 학술단체에도 공개된다.구글 측은 "오픈 이미지에 달린 라벨은 100개의 카테고리를 보유한 이미지넷'을 능가하는 수준의 개체를 포함하고 있어 심화신경망을 처음부터 트레이닝할 수 있다"고 소개했다.닐 알드린 엔지니어는 "지난 수년간 머신러닝 기술을 통해 5년전에 불가능한 것들이 가능해졌고, 딥러닝 혁명으로 인해 신기술이 제품화되면서 컴퓨터 비전 개발 역시 최적의 시기에 도달했다"고 설명했다.이어 "아직까지 일부 데이터를 구별하기 어려운 부분도 존재하지만 사용자와 연구자가 협력해서 더 최적화된 데이터로 트레이닝 시키는 방법이 필요하다"고 덧붙였다. 한진주 기자 truepearl@asiae.co.kr<ⓒ세계를 보는 창 경제를 보는 눈, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
산업2부 한진주 기자 truepearl@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.