본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

빅데이터는 지난 밤에 네가 ‘금스크’를 검색한 일을 알고 있다

2020.05.14

안녕하세요. 코지입니다.

신종 코로나바이러스로 전 세계가 ‘사회적 거리 두기’를 강조하고 있죠. 코지도 동참하기 위해 이렇게 온라인으로만 여러분을 만나고 있는데요.

얼마 전 구글이 131개국 수십억 사용자의 2020년 3월 휴대전화 위치정보를 분석해 ‘사회적 거리 두기’가 제대로 이행되고 있는지를 살펴보는 보고서를 발표했습니다. 이에 따르면 한국에서는 식당, 카페 등 소매점이나 놀이 공간 방문율이 19% 하락했지만, 공원, 해변, 산책로나 광장 등을 찾은 비율은 51%나 증가했다고 합니다.

사회적 거리 두기가 계속되고 있지만 3월 말에는 국내 코로나 확진자 증가 속도가 한풀 꺾이고, 날씨도 따뜻해지면서 밀폐된 실내 공간을 찾는 사람보다 야외 활동을 하는 사람들이 늘어난 것으로 보입니다.

l 사회적 거리 두기
(출처: https://www.gstatic.com/covid19/mobility/2020-03-29_KR_Mobility_Report_en.pdf)

이러한 자료를 바탕으로 어떤 나라가 사회적 거리 두기를 잘 실천하고 있는지 알아낼 수 있겠죠? 구글이 이런 데이터를 제공한 이유는 각국 보건당국이 익명화된 사람들의 위치 데이터가 있다면 코로나 관련한 대응 과정에서 중요한 결정에 도움이 될 것이라는 제안이 많아서라고 합니다.

코로나바이러스 확산 방지와 관련해 정부가 진행 중인 ‘사회적 거리 두기’와 같은 예방수칙을 계속 유지할지, 일상생활과 방역이 조화를 이루는 ‘생활 방역’체제로 전환할지 등을 결정할 때 이러한 실제 데이터가 큰 도움이 되겠죠?

구글은 빅데이터에 대한 관심이 커지던 2008년, 독감 트렌드(Google Flu Trend)를 발표했는데요. 구글 독감 트렌드는 독감과 관련 있는 검색어의 검색 빈도를 추적해 독감 유행 시기를 예측하는 서비스입니다.

l 구글 독감 트렌드 (출처: http://weekly.khan.co.kr/art_print.html?artid=201508101801331)

미국 질병관리본부보다 1주 이상 빠르게 독감 유행 시기를 예측했고, 학술적인 연구 결과 독감을 검색한 빈도와 병원을 방문한 빈도수가 비례한다는 것도 증명되었다고 하네요. 구글이 이 서비스를 위해 새롭게 데이터를 수집한 것은 아닙니다. 다만 가지고 있는 데이터를 통찰력을 가지고 해석했을 뿐이죠.

수집된 데이터를 잘 해석하고, 사용자 관점으로 시각화해 가치를 발견하는 것. 그것이 빅데이터의 진정한 의미이고 우리가 알아야 할 영역인데, 구글은 독감 트렌드로 그것을 증명했죠.

우리나라 사람들이 많이 사용하는 대표적인 검색 엔진인 구글과 네이버에서 각각 ‘트렌드’라는 공통된 이름을 걸고 빅데이터를 활용한 검색 키워드 분석 서비스를 제공하고 있습니다.

● 구글 트렌드 https://trends.google.com/trends
● 네이버 트렌드 https://datalab.naver.com/keyword/trendSearch.naver

이 중 구글 트렌드를 활용해서 코지와 함께 간단한 체험을 해보도록 하죠.

위의 구글 트렌드 링크를 따라 사이트로 들어가 볼까요. 최근 우리의 관심사인 마스크와 코로나의 트렌드가 어떤지 살펴보려고 합니다. 구글 트렌드 첫 화면에서 ‘마스크’라고 쓰고 검색 버튼을 눌러 보겠습니다.

기본적인 조건으로 마스크의 검색 트렌드가 조회될 텐데요. 마스크와 코로나가 어떤 상관관계가 있는지 보기를 위해, 마스크 우측의 ‘비교 추가’를 클릭해 ‘코로나’라고 검색어를 추가하겠습니다. 그리고 아래 조건도 조금 바꿔볼 텐데요. 국가는 ‘대한민국’으로 기간은 ‘지난 90일’로 바꿔보겠습니다.

지난 3개월간의 ‘마스크’와 ‘코로나’ 관련 우리나라 사람들의 관심도의 변화를 확인할 수 있는데요. 그래프의 추이에 변화가 있는 세 포인트 정도를 자세히 살펴보겠습니다.

그래프를 보면 2월 18일부터 24일까지 ‘코로나’의 검색 수가 가파르게 상승하고 있는데요. 이것은 슈퍼 전파자라고 불리는 ‘31번 확진자’의 확진 일이 2월 18일이었고, 31번 확진자의 접촉자 천여 명을 전수조사하면서 그 후 일주일 동안 확진자의 수가 급격하게 증가한 것과 연관이 있습니다.

관련해 사회적 거리 두기를 위해 많은 기업에서 재택근무를 시작했고, 유치원•초•중•고 개학 연기도 2월 23일에 발표되면서 관련 검색이 급증한 것으로 보이네요.

l WHO 대한민국 확진자 데이터 (출처: https://who.sprinklr.com/region/wpro/country/kr)

두 번째 포인트는 마스크의 검색량 변화입니다. 기본적으로 마스크 검색은 코로나 검색과 비슷한 추이를 보였습니다. 하지만 2월 24일 이후 코로나 관련 검색은 줄어드는 경향을 보였지만, 마스크에 대한 검색량은 줄어들지 않았는데요.

확진자 수는 계속 늘어 사람들의 불안감은 커지고 있고, 마스크 착용이 생활화가 되었지만, 마스크 구하기가 하늘의 별 따기가 되었기 때문이죠. 코로나 이전의 3~4배 가격을 주고도 구하지 못하는 경우가 많아, 마스크에 대한 검색량이 많아진 것입니다.

하지만 3월 15일 이후로는 관심도가 이전보다 떨어지는 것을 볼 수 있는데요. 이것은 3월 9일부터 시작된 마스크 5부제와 관련이 깊습니다.

l 마스크 5부제 네이버 검색

3월 9일부터는 일주일에 2개씩 약국을 통해 구매가 가능하게 되자, 마스크 수급에 대해 안정감을 느끼게 되었고, 5부제 시행 후 일주일 후부터는 마스크 검색량이 점점 줄어들어 현재까지도 그 추이가 유지되고 있습니다.

코로나 검색은 4월 4일 한 번 더 급증하는 것을 볼 수 있는데요. 우리나라는 확진자가 줄어드는 추세이지만, 전 세계 코로나 누적 사망자가 6만 명을 넘는 등, 미국, 유럽을 중심으로 전 세계적으로 확진자, 사망자가 늘어나고 있고, 이에 해외에 있던 교민, 유학생들의 입국이 늘어나면서 이들의 확진이 늘어나게 되었습니다.

감염 폭발에 대한 불안감이 여전한 가운데 해외 입국자의 자가격리 및 진단 검사 필수 실시, 사람들이 모이는 공원, 산책로 등의 장소 폐쇄, 사회적 거리 두기 2주 연장(~4/19), 자가격리 수칙 등의 위반 시 처벌 강화(무관용) 등의 여러 정책이 실시되었고, 초•중•고 온라인 개학이 발표되면서 다시 한번 코로나에 대한 검색이 급증한 것으로 보이네요.

최근에 우리가 관심을 많이 갖는 주제로 구글 트렌드를 활용해 보았는데요. 실제로 증권가에서 증시를 전망할 때 구글 트렌드를 참고하는 것은 자연스러운 절차가 되었고, 2016 미국 대선 당시 이전의 선거 여론조사와는 달리 트럼프가 대통령으로 당선되었을 때, 구글은 이미(검색량으로) 그 결과를 예측했었다고 하니, 빅데이터의 활용이 정말 무궁무진하다는 것을 알 수 있겠죠?

다양한 카테고리별 검색 트렌드를 파악할 수 있고, 웹 검색뿐 아니라 이미지, 뉴스, 쇼핑, 유튜브 등 검색 채널도 분리해 검색할 수 있으니, 자신이 관심 있는 영역의 데이터를 조사해보고 숨은 의미 등을 찾는 연습을 꾸준히 한다면, 남들보다 한발 앞서 빅데이터를 잘 활용할 수 있는 사람이 되어 있을 겁니다.

오늘은 빅데이터를 직접 활용하는 방법을 알아봤는데요. 생각보다 어렵지 않죠? 하나씩 차근차근 코지와 함께 해봐요.

글 l LG CNS 대외협력팀

챗봇과 대화를 할 수 있어요