빅데이터란, 적용 못하는 분야는…초간단 5분 정리

[아시아경제 백우진 기자] 조기 은퇴는 기대수명을 단축한다.매력적인 온라인 데이트 상대는 관심을 덜 받는다. 채식주의자는 비행기를 덜 놓친다. 빅 데이터를 돌려 뽑아낸 명제들이다. 데이터 마이닝 전문가인 에릭 시겔이 책 ‘빅 데이터 다음 단계는 예측 분석이다’에서 예시한 것들이다. 모두 재미는 있지만 별 의미는 없는 관계 아닌가? 이런 결론을 얻기 위해 비싼 컴퓨터에 방대한 자료를 넣어 돌리는 게 이른바 ‘빅 데이터’ 활용법인가?

유통회사 테스코의 매장

시겔은 현실에서 활용 가능한 다른 예를 든다. ◆ 오바마 재선에 한몫= 통계를 분석해보니 스포츠 경기 이후 경기장 주변 지역에서 범죄가 증가한다는 연관 관계가 나타났다. 또 범죄를 저지른 적이 있는 사람을 일정 기준에 따라 평가해 재범률이 20%인 그룹과 50% 이상인 그룹으로 분류할 수 있었다. 이는 사회 문제에 빅 데이터를 적용한 사례다. 빅 데이터를 정치 활동 용도로도 가공할 수 있다. 빅 데이터를 분석해서 도출한 분석을 예를 들면 ‘가수 리한나 팬은 대부분 민주당 지지자’라는 사실이다. 이 사실이 무슨 쓸모가 있으랴 싶지만, 유권자의 성향을 파악할 수 있는 이런 단서를 여러 가지 확보한다면 얘기가 달라진다. 2012년 미국 대통령 선거에서 버락 오바마 후보가 승리를 거둔 데에는 빅 데이터 분석이 크게 기여했다. 오바마 후보 진영은 유권자를 5가지 성향으로 나누고 자기 편으로 올 가능성이 있는 대상을 설득하는 데 힘을 기울였다. ◆ 고객이 원하는 걸 콕= 기업은 빅 데이터를 분석해 개별 고객이 무엇을 구매할지 예측한다. 유통업체 테스코는 빅 데이터로부터 개별 고객이 어느 품목을 구매할지 예상해 할인쿠폰 사용률을 이전보다 3.6배로 높였다. 다른 유통업체 타깃은 빅 데이터로 여성 고객의 임신 여부를 예측한 결과 임신한 고객을 이전보다 30% 더 찾아내 마케팅에 활용할 수 있었다. 시겔은 자신의 경험을 들어 빅 데이터 분석이 얼마나 똑똑해졌는지 소개한다. 어느 날 편의점 계산대 바로 밑 쿠폰 기계가 그에게 위장 내 가스 제거제를 할인해주는 쿠폰을 발급해줬다. 그는 오랜 기간 자신의 증세를 알아본 끝에 자신이 락토스 과민증을 앓고 있다는 사실을 얼마 전에야 알아낸 참이었다. 그의 구매 데이터만 갖고 있는 편의점의 추천 시스템이 그의 증상을 정확하게 진단한 것이다. 이처럼 빅 데이터가 개별 소비자의 행동을 예측하는 것은 물론 사생활을 속속들이 파악하면서 프라이버시를 침해한다는 비판도 나오고 있다. ◆ 예측 불가능한 영역= 시겔은 빅 데이터가 만능은 아니라고 경고한다. 그는 방대한 자료로부터 ‘엉뚱한 상관성’을 발견하는 우를 피해야 한다고 지적한다. 그는 엉뚱한 상관성의 예로 방글라데시 버터 생상량과 주가의 관계를 들었다. 연간 방글라데시 버터 생산량의 증감률로 미국 스탠다드 앤드 푸어스(S&P) 500 지수의 변동을 75% 설명 가능하다는 분석이 나왔다. 금융공학자 데이비드 레인웨버가 책 ‘월스트리트의 괴짜들’에서 농담처럼 든 관계다. 그러나 이 책이 나오자 레인웨버에게 전년도 방글라데시 버터 생산량 증감률을 진지하게 묻는 사람들이 적지 않았다.

.

과거 주가만큼 방대한 데이터도 없다. 주가 빅 데이터로부터 향후 주가의 움직임을 찾겠다는 시도가 끊임없이 이뤄지고 있다. 그러나 뚜렷한 성과가 나오지 않고 있다. 시겔은 주가지수에 선행하는 불안지수에 대한 연구를 소개했다. 불안지수가 낮아질 때 주가가 오르고 높아질 때 주가가 내린다면 이 지수로 높은 수익률을 올릴 수 있다. 그러나 연구는 ‘불안지수가 높아지면 지수 상승률이 낮아지는 경향이 있다는’는 돈이 안 되는 결론에 그쳤다. 시겔은 “주식시장을 성공적으로 예측하는 일이 가능하다는 결정적인 증거는 없다”고 말한다. 과거 주가 패턴이 미래에 반복된다는 보장이 없다고 설명한다. 빅 데이터는 척척박사가 아니다. 데이터 마이닝 전문가라도 빅 데이터로 예상하지 못하는 것이 있다는 점을 알지 못하면 엉뚱한 데 데이터와 시간을 허비할 위험이 있다. 빅 데이터는 예측을 벗어나는 외생변수가 많고 사람이 상호작용하면서 결과가 나오는 영역에서는 전혀 도움이 되지 않는다. 주식시장과 거시경제가 그런 영역이다. (자료)에릭 시겔, 빅 데이터 다음 단계는 예측 분석이다백우진 기자 cobalt100@asiae.co.kr<ⓒ세계를 보는 창 경제를 보는 눈, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

디지털뉴스룸 백우진 기자 cobalt100@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스