본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

빅데이터로 선거 결과도 예측할 수 있다!

2017.02.13

20년 전, 세계 시가총액 1위와 2위 기업은 코카콜라와 GE였습니다. 그 당시에도 IT 기업 열풍이 전 세계를 강타하고 있었지만, 마이크로소프트와 인텔 그리고 IBM 정도만이 IT 기업으로서 시가총액 상위에 이름을 올리고 있었고, 대부분 상위 기업은 당시 잘 나가는 제조업 기반 기업이었습니다.

20년이 지난 현재, 시가총액 1위와 2위 기업은 구글과 애플이 차지하고 있습니다. 애플은 20년 만에 시가총액이 약 220배가량 늘었으며, 구글은 그 당시 상장하기 전이라 순위도 없었습니다. 그 밖에 마이크로소프트, 아마존, 페이스북 등의 IT 기업이 시가총액 상위 그룹을 형성하고 있습니다. 불과 20년 만에 세계 경제를 이끌어가는 업종의 패러다임이 바뀌었다고 할 수 있습니다.

l 구글에서 제공하는 빅데이터 플랫폼 ‘빅쿼리’(출처: https://cloud.google.com/bigquery/)

빅데이터가 미래를 이끌어갈 중요 키워드로 관심을 받는 지금, 세계에서 빅데이터를 가장 잘 이해하고 활용하고 있는 기업으로 평가받는 ‘구글’에 한 번 더 주목해야 할 필요성이 있는데요. 이번 시간에는 구글이 빅데이터를 활용하여 어떠한 새로운 일들을 하고 있는지 소개하고자 합니다.

이전 글에서 빅데이터란, 대용량의 정형 및 비정형 데이터 속에서 지금까지 알지 못했던 규칙이나 패턴들을 찾아내어 새로운 가치를 추출하는 것이라고 정의한 바 있습니다.

이러한 빅데이터를 분석하는 일은 기업 입장에서는 매우 중요한 미션입니다. 빅데이터 분석을 통해 기업은 새로운 비즈니스 모델을 찾아 기존에 없던 부가가치를 창출할 수 있기 때문이죠. 그렇다면 구글은 빅데이터 분석을 활용하여 어떤 재미있는 일을 수행하고 있을까요?

● 무한 경쟁에서 살아남기 위한 열쇠, 빅데이터
http://blog.lgcns.com/1226

Google 독감 트렌드 분석을 통한 독감예측

2009년, 국제적으로 가장 저명한 학술지 중 하나인 ‘Nature’에 재미있는 논문 한 편이 소개됩니다. 바로 구글에서 ‘검색어 집계’를 이용하여 독감 유행수준을 밝혀냈다는 연구 내용이었습니다. 구글 검색엔진으로 독감과 관련된 검색어를 검색할 때마다, 발생하는 검색시간과 검색장소의 데이터를 활용하는 것입니다. 이 데이터를 통해 독감 환자 수를 예측하는 모델을 구축한 것입니다.

많은 양의 데이터를 활용하여, 해당 지역에서 실제 독감으로 병원에 방문한 환자 수와의 상관관계를 분석한 것이라 할 수 있는데요. 그렇다면 과연 그 예측 정확도는 얼마나 높았을까요? 분석 결과에 따르면 보건당국이 발표한 실제 독감 환자 수와 매우 유사한 그래프를 보여주고 있다고 합니다.

l ‘Nature’ 학회지에 발표된 구글의 독감예측 논문
(출처: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html)

이러한 예측 결과를 제공하는 것은 매우 유용한 가치를 가지고 있습니다. 실제로 미국의 경우, 질병관리본부가 각 지역에서 독감이 발생한 후부터 독감 환자 수를 보고받기까지 약 2주가 걸린다고 하는데요. 독감 발생 2주 후에 질병관리본부가 독감 확산 방지를 위해 조치를 취할 때쯤엔, 아마 독감은 다른 지역으로 퍼지고 난 이후일 것이 분명합니다. 하지만 구글 예측 결과를 활용하면, 이러한 예측결과를 실시간으로 제공하므로, 독감 확산을 방지하기 위한 사회적 비용을 획기적으로 절감할 수 있을 것입니다.

Google 검색 결과 수 카운트를 통한 선거 결과 예측

국내 빅데이터 관련 최고 전문가 중 한 명이자 ‘구글 신은 모든 것을 알고 있다’의 저자인 카이스트 정하웅 교수는님은 구글 검색과 선거 득표수의 연관성에 대해 재미있는 이야기를 해 주셨습니다.

2007년 대선 후에 이명박을 검색해 봤더니, 연관 검색 결과가 약 1,000만 개, 정동영 후보는 500만 개, 이회창 후보는 300만 개, 그리고 문국현 후보는 200만 개였으며, 실제 선거 득표수도 검색결과 수와 거의 일치하였다는 내용입니다.

검색결과 수와 득표수와의 연관성 정도를 통계적으로 나타내주는 피어슨 상관계수는 그 값이 무려 0.988이 나왔다고 합니다. -1과 1의 사이 값을 가지는 피어슨 상관계수는 -1에 가까워질수록 강한 음의 상관관계를, 반대로 1에 가까워질수록 강한 양의 상관관계를 나타내주는 통계치인데요. 통계적으로 검색결과 수와 득표수와는 매우 강한 상관관계를 가지고 있다고 볼 수 있습니다.

이를 검증해보고자 정하웅 교수님은 2011년 서울시장 보궐선거 전날 밤 11시 15분에 구글 검색을 해 보았다고 합니다. 나경원 후보를 검색하니 검색 결과가 약 4,660만 개, 박원순 후보를 검색하니 약 5,430만 개로 구글은 46:54의 비율로 박원순 후보가 승리할 것을 예측한 것이지요. 그리고 실제 선거 결과 나경원 후보가 46.2%, 박원순 후보가 53.4%의 득표율을 보였다고 합니다. 이 두 번의 사례에서 구글은 놀라울 정도로 정확한 예측을 해낸 것이죠.

이러한 흥미로운 상관성을 한 번 더 검증해 보고자 최근 큰 이슈가 되었던 2016년 미국 대선을 한 번 더 조사해 보았습니다. 미국 구글 사이트에 접속하여 한국 시각으로 선거 전날 밤 11시에 구글 검색 수를 힐러리 후보와 트럼프 후보에 대해 각각 조사해 본 결과 구글은 약 46:54의 비율로 트럼프 후보가 승리할 것을 예측하였습니다. 그리고 다음 날 실제 결과를 통해 약 44:56의 비율로 득표수가 결정되었다는 것을 알 수 있었습니다.

l 구글 검색 예측으로 선거 결과를 알 수 있을까?
(출처: https://www.google.com/doodles/united-states-elections-2016-reminder-day-2)

물론 이러한 결과는 앞으로 과학적인 검증이 더 필요할 것입니다. 이러한 예측 결과를 실제로 활용할 수 있다면, 여론 조사 수행 시 발생하는 비용을 절감할 수 있는 아이디어로 이용 가능할 것입니다.

지금까지 구글이 보유하고 있는 강력한 빅데이터를 활용하는 흥미로운 사례를 간략하게 살펴보았습니다. 이러한 내용을 통해 우리는 빅데이터 활용이 시사하는 중요한 점을 유추할 수 있습니다.

사실 특정 후보에 대한 검색결과는 그 후보에 대한 관심도를 나타낸다고 할 수 있습니다. 하지만 전체 검색결과 중에는 특정 후보에 대하여 호감이 있는 사람이 검색한 것도 있지만, 비호감을 가진 사람이 검색한 결과 수도 포함되어 있기 마련입니다.

따라서 이러한 점을 고려해 본다면 검색결과 수와 득표수와의 상관관계를 당연히 의심할 수 있습니다. 하지만 여기서 주목해야 하는 것은 예측 결과 도출에 이용한 구글 검색 결과 수입니다. 적게는 1,000만 개의 데이터에서 많게는 몇억 개의 데이터를 통해 상관관계를 도출한 것이죠. 독감 예측에 사용한 데이터의 양도 마찬가지로 어마어마한 양입니다.

이렇게 많은 양의 빅데이터를 사용하게 되면, 편향(bias)된 데이터가 분석과정에 포함되어 있더라도 편향된 데이터로 인해 발생할 수 있는 오류들을 무시할 수 있을 정도의 일반화된 결과를 얻을 수 있다는 점이 빅데이터 활용의 가장 커다란 장점입니다. 이는 모든 데이터의 집합을 정규분포로 가정한다는 통계학의 기본 가정과도 연관이 되는 내용이기도 합니다.

앞으로 구글이 가지고 있는 빅데이터로부터 어떠한 새로운 규칙과 패턴들이 밝혀질지 기대됩니다. 그리고 여기서 발견된 새로운 규칙들과 패턴들로부터 어떠한 획기적인 활용 방안을 모색할 수 있을지 기대해 봐도 좋을 것 같습니다.

글 ㅣ 안재준 교수ㅣ 연세대학교 정보통계학과

챗봇과 대화를 할 수 있어요