2000년대 여론조사 기관 급증
인터넷 여론조사 성행, 통계적 엄밀성 떨어져
무응답 편향·선거 막판 무리짓기 현상 지적도
전 세계 초유의 관심사였던 미국 대선이 막을 내렸다. 여론조사는 박빙 구도 속 카멀라 해리스 부통령의 우세를 점쳤지만, 결과는 도널드 트럼프 당선인의 압승으로 끝났다. 미국의 여론조사는 2016년 힐러리 클린턴 전 국무부 장관의 압승을 내다봤지만, 백악관의 주인은 트럼프 당선인이 됐다. 2020년엔 조 바이든 대통령의 8%포인트 차 압승을 전망했지만, 실제 격차는 4%포인트 안팎으로 40년 만의 최대 오차를 범했다. 트럼프 당선인의 대선 전적은 2승 1패지만, 여론조사와의 맞대결은 3승 0패로 마무리된 셈이다. 이처럼 여론조사가 빗나가는 이유는 무엇일까.
퇴색된 확률표본추출 전통
여론조사의 예측이 빗나간 원인을 파악하기 위해선 먼저 미국 여론조사 방식의 변천사를 되짚어 볼 필요가 있다. 에머슨대학 여론조사센터(ECPC)에 따르면 약 100년 전 미국은 주로 우편과 대면 인터뷰를 통해 데이터를 수집했다고 한다. 그러다 1970년대 미국 가정에 유선전화가 널리 보급되면서 무작위 숫자 다이얼링(RDD) 기반의 전화 여론조사가 성행하기 시작했다. 여론조사 설계자가 연락을 취하고자 하는 지역 번호를 선택하면 사전에 고용된 콜센터 조사원들이 해당 지역 번호로 시작하는 7자리 전화번호를 무작위로 추출해 전화를 거는 방식이다.
1990년대 들어서 여론조사 방식은 또 한 번의 변혁을 맞이한다. 무작위 전화 조사는 표본의 대표성 확보에는 유리하지만, 기업이나 정부 기관 등 여론조사에 유용하지 않은 번호로 전화가 가는 경우가 있어 시간과 비용이 많이 소요되는 한계가 있었다. 이를 해결하기 위해 조사 대상의 성별, 연령, 교육 수준이 공개된 등록 유권자 명부를 바탕으로 '층화 표본추출'(Stratified sampling)이 도입되기 시작했다. 전체의 40%만 대학 학위를 지닌 모집단을 조사하고자 한다면, 100명의 표본을 추출할 경우 대학 학위 보유자 명단에서 40명, 학위가 없는 명단에서 60명을 무작위로 추출해 모집단과 유사한 표본을 구성하는 방식이다.
미국의 손꼽히는 여론조사 기관 중 하나인 뉴욕타임스(NYT)·시에나 칼리지는 이처럼 유권자 등록 명부를 활용한 전화 여론조사를 고수해오고 있는 곳 중 하나다. 이들의 설명에 따르면 여론조사는 약 1000명의 표본을 대상으로 실시해 ±3~4%포인트 수준의 오차범위를 갖는 게 일반적이다. 만약 신뢰수준이 95%라면, 동일한 여론조사를 100번 실시했을 때 95번은 오차범위 내 결괏값이 나온다는 의미다.
온라인 여론조사의 표본 편향
문제는 이제부터다. 2000년대 들어서면서 전통적 전화 조사의 시대가 저물고 휴대전화, 문자 메시지, 인터넷 플랫폼을 통한 여론조사가 득세한 것이다. 특히 인터넷 기반 여론조사가 성행하면서 무작위 추출을 고수하던 층화 샘플링은 '할당 표본추출'(quota sampling)로 대체돼 갔다. 할당 샘플링은 모집단을 하위 소집단으로 범주화한다는 측면에서 층화 샘플링과 비슷하지만, 소집단 내 표본을 작위적으로 선택한다는 점에서 통계적 엄격성이 떨어지고 표본이 편향되기 쉽다.
퓨리서치센터는 "2000년대 초만 하더라도 전국 단위 선거조사 결과를 공표하는 업체는 30여개에 불과했으나 현재는 60개가 넘는다"며 "문제는 이들 중 절반가량이 무작위 전화번호를 이용하는 전화 면접 등 전통적 조사 방법이 아니라 '자발적 참여 기반(opt-in)'의 온라인 조사를 채택하고 있다는 점"이라고 지적했다. 이러한 방식은 전화 면접보다는 비용이 저렴하지만, 정치 관심도가 높거나 인터넷 환경에 친숙한 집단을 위주로 여론조사가 실시되기 때문에 표본의 대표성이 떨어진다. 퓨리서치센터는 "비확률 샘플링을 사용하는 설문조사는 확률 샘플링을 사용하는 설문조사보다 평균적으로 두 배 더 큰 오차를 범할 수 있다"고 지적했다.
그러나 온라인 조사만의 문제로 치부할 순 없다. 트럼프 당선인이 출마한 최근 세 차례 대선에선 통계적 엄밀성을 담보한 것으로 평가되는 유명 여론조사들마저 예측이 빗나갔기 때문이다. 2016년 대선에서 대부분의 여론조사는 클린턴 전 장관의 압승을 전망했다. 전국 단위에서는 클린턴 전 장관이 280만표를 더 얻었으나, 경합주를 석권한 트럼프 당선인이 304명의 선거인단을 차지하며 백악관에 입성했다. 2020년 대선에서는 바이든 대통령의 8%포인트 차 압승을 예측했으나 실제 격차는 4%포인트 안팎으로 2배 정도 빗나갔다. 미국 여론조사협회(AAPOR)는 "2020년 여론조사는 이례적인 규모의 오차가 발생했다"며 "전국 유권자 투표 기준으로는 40년 만에 가장 크게 빗나갔다"고 복기했다.
절치부심한 여론조사 기관들은 이번 대선에서 오차범위 내 해리스 부통령의 전국 우세, 경합주 근소 우위를 내다봤으나, 트럼프 당선인이 전국 득표수는 물론 7개 경합주 모두 싹쓸이했다. 최근 세 차례 대선의 공통점은 트럼프 당선인의 지지세를 과소평가했다는 것이다. 미 여론조사 퓨 리서치는 "지난 20년간 선거 여론조사를 돌이켜보면 트럼프가 후보로 나오는 선거는 예측이 많이 빗나갔지만, 트럼프가 없었던 선거들은 대체로 정확히 예측했다"고 설명했다.
샤이 트럼프의 '무응답'
지난 두 차례 대선에서 전문가들은 자신이 트럼프 당선인에게 투표한다는 사실을 숨기고 지지 후보를 거짓으로 답하는 '샤이 트럼프'(shy Trump voters) 유권자를 여론조사의 예측 실패 원인으로 지목했었다. 그러나 퓨리서치센터는 이 같은 샤이 트럼프 효과를 뒷받침하는 증거는 발견되지 않았다고 지적한다. 대신 전문가들은 최근 '무응답 편향'에 주목하는 분위기다.
미국 선거판에서 소위 '족집게'로 통하는 스타 통계학자 네이트 실버는 "트럼프 지지자들은 종종 시민 참여와 사회적 신뢰가 낮기 때문에 뉴스 기관의 설문 조사를 완료할 의향이 낮을 수 있다"며 샤이 트럼프들의 '거짓 응답'이 아니라 '무응답'이 여론조사 표본의 대표성을 떨어뜨리는 요인일 수 있다고 짚었다. 네이트 콘 NYT 데이터 분석가는 "NYT와 시에나 칼리지가 최근 실시한 여론조사 결과 백인 민주당원이 백인 공화당원보다 조사에 응답할 가능성이 16% 더 높았다"고 밝히기도 했다.
여론조사 기관들의 '무리 짓기'
선거 막판 여론조사 기관들의 '무리 짓기'(herding) 현상도 문제점으로 꼽힌다. 업체들이 선거 막판에는 유달리 높거나 낮은 값을 보이는 통계적 이상치(outliers)가 발견돼도 평판이 떨어지는 게 두려워 이를 밝히지 않고 대세 분석을 따라가려 한다는 것이다. 통계학자 실버는 "경합주에서 해리스와 트럼프의 격차가 1%포인트 내외라고 발표하는 여론조사가 너무 많다"며 "이보다는 더 많은 차이가 있어야 정상"이라고 지적했다.
일례로 '중서부의 예언자'로 불리는 여론조사 전문가 앤 셀저는 대선을 앞두고 '트럼프 텃밭'인 아이오와에서 해리스 부통령이 트럼프 당선인을 3%포인트 앞서고 있다는 이상치를 발표했으나, 결과는 트럼프 당선인의 14%포인트 격차 압승으로 끝나며 자존심에 금이 가기도 했다.
월스트리트저널(WSJ)은 "트럼프는 지난 3번의 대선을 거치며 대학 졸업자, 노동자, 라틴계, 흑인 계층 모두에서 지지율이 개선됐다"며 "3연속으로 트럼프의 지지세를 과소평가한 미국의 여론조사를 보면 아직도 트럼프가 조성한 미국 정치의 기상 환경을 이해하지 못하고 있는 것 같다"고 평가했다.
김진영 기자 camp@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>