KAIST는 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델이 가진 복잡성을 해결하기 위해 설계된 차세대 동영상 인식 모델이다.
기존 트랜스포머 기반의 모델은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.
이러한 단점을 해결하기 위해 개발된 비디오맘바는 트랜스포머 기반 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 보이고, 추론 속도는 기존 트랜스포머 기반 모델 대비 4배 빠른 강점을 가졌다.
특히 선택적 상태 공간 모델(Selective State Space Model·입력에 따라 동적으로 매개변수를 조정, 시퀀스 데이터의 문맥을 보다 잘 이해할 수 있게 하는 상태 공간 모델) 메커니즘을 활용해 선형 복잡도로 효율적인 처리가 가능하다.
이를 통해 비디오맘바는 동영상의 시·공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터를 효율적으로 처리할 수 있다.
연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바가 3차원 시공간 데이터를 분석하는 것이 가능하도록 고도화된 시·공간적 전·후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)도 도입했다.
이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 높이는 기능을 한다.
연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증, 향후 비디오맘바가 영상 분석이 필요한 다양한 응용 분야에서 효율·실용적인 솔루션을 제공할 수 있을 것으로 내다봤다.
예컨대 비디오맘바를 활용하면 자율주행에서 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다.
또 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간 모니터링하고, 긴급 상황 발생 시 신속히 대처할 수 있을 것으로 연구팀은 기대한다.
스포츠 분야에서는 경기 중 선수의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방하는 역할도 할 수 있다.
김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량 그리고 기존 트랜스포머 기반의 모델보다 향상된 동영상 인식 성능은 앞으로 다양한 동영상 활용 분야에서 널리 쓰일 수 있는 잠재력을 가졌다고 판단한다”고 말했다.
지금 뜨는 뉴스
한편 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. 연구에는 KAIST 전기및전자공학부 박진영 석박사통합과정·김희선 박사과정·고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자 그리고 김창익 교수가 교신 저자로 참여했다.
대전=정일웅 기자 jiw3061@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>