본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

사진 1,000장은 빅데이터일까?

2020.04.30

안녕하세요! 코지입니다. 오늘은 빅데이터에 대해서 알아보려고 해요! 빅데이터라는 단어는 누구나 들어봤을 텐데요. ‘빅데이터가 무엇입니까?’라는 질문을 받으면 어떻게 대답할 수 있을까요? 큰 데이터? 대용량 데이터? 틀린 말은 아니지만 조금 부족한 설명일 수 있겠네요.

우리가 매일 스마트폰으로 찍는 사진 한 장의 크기(용량)가 2MB(메가바이트) 정도라고 했을 때, 1,000장의 사진은 2,000MB, 바로 2GB(기가바이트) 정도인데요. 이 정도는 빅데이터라고 말할 수 없다고 해요.

‘내가 바로 빅데이터야’라고 소개할 정도가 되려면, 그 크기가 수십 TB(테라바이트)에서 PB(페타바이트)는 되어야 한다고 하는데요. TB(테라바이트), PB(페타바이트)라고 하니 감이 잘 안 오시나요?

1PB는 100GB 용량의 스마트폰 1만 대 또는 2MB 용량의 사진 5억 장 정도예요. 정말 어마어마한 크기죠?

빅데이터는 단지 크기만으로 정의할 수는 없답니다.

빅데이터 시대에 돌입하면서 우리는 과거에는 발견하지 못했던 새로운 가치를 발견하고 활용할 수 있게 되었는데요. 교통 상황과 관련된 데이터를 분석해 실시간으로 최적 경로를 안내한다든지, 기온과 대기오염도 등 기상 정보와 연계한 고위험 환자의 관리를 하는 등의 기존에는 처리하기 어려웠던 다양한 형태의 데이터를 분석해 마케팅, 미래 수요 예측 등에 활용하고 있습니다.

그렇다면 빅데이터가 무엇인지, 먼저 빅데이터의 의미부터 알아야겠죠? 과거에도 데이터는 존재했지만 PC와 인터넷, 모바일 등 디지털 기기의 이용이 생활화되면서 사람들이 도처에 남긴 발자국(데이터)은 기하급수적으로 증가하게 되었고, 사람과 기계, 기계와 기계가 서로 정보를 주고받는 사물인터넷(IoT)의 확산으로 실생활에서 규모를 가늠하기 힘든 수준의 많은 데이터가 생성되고 있습니다.

1분 동안 구글에서는 400만 건의 검색이 이루어지고, 유튜브에서는 100시간 분량의 비디오가 업로드되고, 페이스북은 300만 건의 콘텐츠가 공유되고 있습니다. 이 숫자는 현재도 계속 늘어나고 있는데요. 현존하는 인터넷 데이터의 90% 이상이 2016년 이후에 생성된 것이라 하니, 그 증가 속도가 얼마나 빠른지 알 수 있겠죠?

빅데이터는 다양하고(Variety), 빠르고(Velocity), 방대하게(Volume) 쏟아지는 가치 있는(Value) 데이터라는 ‘4V’로 설명되기도 합니다.

  • 다양성(Variety) – 데이터베이스에 차곡차곡 쌓던 기존의 정형화된 데이터의 형태가 아니라, 사진과 이미지, 영상 등의 다양한 비정형 데이터가 전체 데이터의 90%를 차지하고 있습니다.
  • 속도(Velocity) – 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성입니다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석 처리할 수 있는 성능을 의미하는 것이죠.
  • 크기(Volume) – 수십 테라바이트 혹은 페타바이트 이상 규모의 데이터 속성인데, 큰 규모의 기준이 정확히 무엇이냐?라고 하면 단정 짓기는 어려울 것 같습니다. 확실한 건 오늘보다 내일의 데이터가 훨씬 많다는 것이겠죠.
  • 가치(Value) – ‘구슬이 서 말이라도 꿰어야 보배’라는 우리 속담이 있죠? 이 말이 빅데이터의 ‘가치’라는 속성을 잘 설명해주는 것 같습니다. 아무리 많은 데이터라고 하더라도 활용할 수 없는 데이터라면 의미가 없다는 말입니다. 데이터 자체가 중요한 것이 아니라 의사결정에 유용한 ‘정보(Information)’로 활용되어야 하고, ‘지식(Knowledge)’으로 축적되어야 합니다.

빅데이터를 ‘4차 산업혁명의 씨앗‘, ‘4차 산업혁명의 원유’라 하는 이유를 아시나요?
산업화 시대는 석유가 성장의 기반이었든, 4차 산업혁명을 이끌어 나가는 인공지능(AI), 사물인터넷, 로봇 등의 관련 산업에서 빅데이터는 그 뿌리가 되기 때문입니다. 각종 산업 발전을 촉진하고 새로운 가치를 창출하는 중요한 원천이 데이터인 것입니다.

수십 년 동안 존재했지만, 데이터의 폭발적인 증가에 따라 엄청난 속도로 발전할 수 있게 된 AI만 봐도 그렇습니다. 우리가 궁금한 내용이 있을 때마다 사용하는 구글 서치를 통해, 구글은 AI가 오타 및 검색 성향 등을 배울 수 있는 데이터를 실시간으로 대량 수집하고 있죠.

학습을 위해 많은 양의 데이터가 필요한 AI 분야가 데이터가 폭증하는 요즘의 시대에 눈부신 활약을 보이는 것은 어쩌면 당연한 일이겠죠.

지문 감식, 자동 번역, 통역, 온라인에서 개인별 맞춤형 추천 등 우리가 편리하게 일상적으로 사용하고 있는 서비스들도 이런 빅데이터의 기반 하에 가능한 서비스 들입니다.

빅데이터는 이제 특별한 직업을 가진 사람들만 알아야 하는 기술이 아닙니다. 숙박 공유 사이트인 에어비앤비(Airbnb)는 숙박의 수요, 위치, 종류 등에 대한 데이터를 분석해 숙박 예약 가능성과 최적화된 가격 등의 정보를 호스트에게 제공합니다.

과거에는 호스트들이 단순히 개인적인 경험에 기반해 가격을 책정했겠죠? 고객들에겐 고객 선호도에 대한 데이터를 바탕으로 더욱 개인화된 숙박을 추천해 줍니다. 고객의 과거 행동에 대한 데이터를 분석해, 고객이 좋아할 만한 새로운 여행지, 주변의 맛집 등을 추천함으로써 고객 경험을 향상시키는 것이죠.

언젠가부터 유튜브에서 유행하기 시작한 인터넷 밈이 있죠.

‘오늘도 알 수 없는 유튜브 알고리즘이 나를 이 영상으로 끌고 왔다.’

이런 말이 유행하게 된 원인은 바로 유튜브의 추천 영상 제공 시스템 때문인데요. 유튜브는 사용자 개개인의 동영상 이용 데이터를 축적한 후 이용자 취향을 파악하고 이에 맞는 콘텐츠를 추천합니다.

유튜브 체류시간을 늘리기 위해 이 알고리즘은 보다 정교하고 사용자 만족도를 높이는 방향으로 발전해 왔는데요. 구글은 사실 이 알고리즘에 대해 정확히 밝히고 있지 않습니다.

사용자의 시청 시간, 구글 서비스(지도 등)에서 검색한 내역, 광고주의 사이트에서 구매하는 항목 등이 알고리즘을 구성하는 데 사용되리라 추측할 뿐입니다. 확실한 것은 알고리즘을 구성하는데도 빅데이터가 필수적으로 사용되었다는 것이죠.

빅데이터의 소개를 마무리하며 마지막으로 빅데이터와 개인정보 보호에 대해 말씀드리려 합니다. 현재 전 세계적으로 가장 잘나가는 글로벌 기업들이 공통점이 무엇일까요? 전 세계 사람들을 연결하는 플랫폼을 가진 기업들이라는 것입니다.

이 기업들은 엄청난 사용자 정보를 취급하고 있고, 우리의 인터넷상의 모든 활동(친구들과의 대화, 사진 공유, 쇼핑 등)과 데이터 기록이 이들 회사의 플랫폼을 키워주고 있습니다. 그러다 보니 개인정보 활용과 관련된 여러 문제점이 발견되고 있는데요.

사용자의 온라인 생활을 꼼꼼하게 추적해 성별, 연령, 직장, 인간관계, 취향이나 위치정보를 광고주들에게 제공한다든지, AI 스피커를 통해 수집된 말이나 대화 정보를 본연의 학습 목적 외에 임의로 사용하는 등의 부작용들이 나타나고 있습니다.

영국의 소설가 조지 오웰은 소설 <1984년>에서 ‘감시자’를 지칭하기 위해 ‘빅 브라더’라는 용어를 사용했습니다. 빅 브라더는 정보의 독점으로 사회를 통제하는 관리 권력, 혹은 그러한 사회 체계를 일컫는 말인데요.

빅 브라더에 대한 사회적 논의는 이전부터 꾸준히 진행되어왔지만, 빅데이터로 인해 최근에는 다양한 개인정보가 수집되고 개인의 모든 행동이 감시와 통제, 예측까지 가능하다 보니, 개인정보에 대한 관심이 높아질 수밖에 없는 상황입니다.

빅데이터는 이제 거의 모든 산업에 필수 불가결한 요소입니다. 빅데이터 활용을 위해서는 가능한 한 많은 정보가 추가되어야 하지만, 그럴수록 정보 유출의 위험성은 증가하게 되는 모순적 상황이 일어나고 있습니다.

<빅데이터 수집, 활용>과 <개인정보 보호> 두 개의 가치에 대한 균형적인 인식과 미래를 향한 긍정적인 논의가 지속되어야 할 것 같네요.

오늘은 빅데이터가 무엇인지 그 개념에 대해서 알아봤는데요. 다음에는 빅데이터를 활용한 구체적인 사례들을 더 소개해드리겠습니다.

글 l LG CNS 대외협력팀

챗봇과 대화를 할 수 있어요