본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

잠자는 보물, 다크 데이터

2020.10.19

지금 사용하는 개인 컴퓨터를 살펴보면 다양한 폴더와 파일이 자리 잡고 있습니다. 폴더에 담긴 파일은 데이터입니다. 이러한 데이터 중 최근 생성한 파일, 혹은 자주 사용하는 파일 외에 얼마나 많은 데이터를 활용하고 있을까요?

폴더에는 문서 파일, 이미지 및 영상 파일, 유틸리티 프로그램을 비롯해 공간 효율을 위해 압축해둔 파일 등이 있습니다. 그런데 폴더를 보면 재생한 지 오래된 음악 파일이나, 과거의 회의 자료와 각종 문서가 그대로 쌓여 있습니다. 언제 다운로드했는지 혹은 만들었는지 기억조차 없는 파일이 있습니다.

이처럼 수많은 데이터가 저장되어 있지만 활용하지 않는 데이터를 ‘다크 데이터(Dark Data)’라고 합니다. 다크 데이터는 다른 데이터와 연결되지 않고 고스란히 남아 있습니다. 사용자조차 존재 여부를 모르는 채 보유하고 있는 데이터는 사용자의 컴퓨터나 클라우드 서비스 등 어디에나 존재합니다.

다크 데이터는 데이터의 중요성이 부각되며 2~3년 전부터 많은 관심을 받기 시작했습니다. 다크 데이터를 활용하려는 노력이 계속되고 있는데, 다크 데이터를 어떻게 파악하고 분석해 기업 비즈니스에 도움이 될 수 있을지 살펴보겠습니다.

다크 데이터는 무엇인가?

다크 데이터는 빅데이터와 비슷하지만, 구조화되어 있지 않고 일반적으로 더는 사용하지 않는 데이터를 말합니다. 기업이나 비즈니스 활동에서 수집, 처리하지만 특별한 목적을 위해 사용되는 데이터가 아닙니다. 많은 회사가 생성하고 수집한 데이터를 저장하지만, 데이터로 어떻게 활용해야 할지 몰라 그냥 두곤 합니다. 로그 파일이나 오래전에 작성된 문서 등이 이에 해당합니다.

대부분의 다크 데이터는 구조화되지 않은(Unstructured) 비정형 데이터입니다. 오디오나 비디오, 이미지 파일 등입니다. 사용자의 행동이나 음성 정보 등이 포함됩니다. 일반적으로 흔히 찾아보거나 접근하는 데이터가 아니고 워낙 양이 많아 특별한 수집, 분석 도구가 필요합니다.

다크 데이터의 종류는 산업 별로 굉장히 다양합니다. 날씨를 기록하기 위해 수집하는 데이터도 있고 이커머스에서 쇼핑할 때 발생하고 수집되는 데이터도 있습니다. 서버나 시스템에 기록되는 각종 로그 파일과 위치 데이터, CCTV 녹화 영상, 고객 상담 기록, 회의록 등과 같은 데이터도 포함합니다.

일반적으로 모바일과 인터넷 활동을 통해 전송되는 모든 데이터는 잠재적인 다크 데이터라고 볼 수 있습니다. 네트워크에서 인터넷 환경을 구성하는 여러 요소가 데이터를 끊임없이 생성하고 정보를 주고받기 때문입니다.

l 대용량 데이터 (출처: envato)

빠르게 분석하고 활용 가능한 정형화 데이터와 반대로 비정형 데이터인 다크 데이터는 기업 입장에서는 저장 비용을 발생시키며, 오히려 필요한 데이터를 찾는 데 방해 요소가 될 수 있습니다. 리서치 기업 가트너는 다크 데이터를 ‘기업의 활동으로 수집되고 저장되지만, 특별한 용도로 사용되지는 않는 정보’라고 정의했습니다.

다크 데이터는 사용되지 않는다는 점에서 쓸모 없는 데이터로 치부될 수 있지만, 데이터가 가진 잠재적 가치와 활용성에 초점을 맞추면 이야기가 달라집니다. 큰 비용을 들여 다크 데이터를 분석할 필요가 없었던 과거와 달리, 대용량 데이터를 처리하는 기술이 발전하면서 공간만 차지하던 데이터까지 분석할 수 있게 됐습니다. 다크 데이터 자체로는 큰 의미가 없을 수 있지만, 분석되어 활용하고 있는 데이터와 결합하면 다양한 변수를 찾아낼 수 있습니다.

다크 데이터를 밝은 데이터로 만들기 위해

전체 데이터에서 다크 데이터가 차지하는 비율은 얼마나 될까요? 여러 전문 기관에서 다양한 수치를 내놓았는데, 최소 80% 많게는 90% 이상이 다크 데이터로 알려졌습니다. 세상에 존재하는 수많은 데이터 가운데 10% 정도만 활용하고 있다는 것입니다.

다크 데이터의 비중은 데이터 생성이 빠르고 대량으로 가능해지면서 점차 늘어날 수 있습니다. 불과 몇 년 안에 다크 데이터가 97% 혹은 99%를 차지할지도 모릅니다. 다크 데이터의 비중이 늘어나는 것이 나쁜 것만은 아닙니다. 반대로 생각하면 다른 기업이나 사람이 사용하지 않는 데이터를 필요한 데이터로 만들 좋은 기회이기 때문입니다.

다크 데이터에 대한 관심이 높아진 데는 두 가지 요인이 있습니다. 먼저 데이터 저장 장치와 인프라의 발달입니다. 클라우드 기술의 발전과 함께 저장되지만 사용되지 않는 데이터 역시 많이 늘어났습니다. 하지만, 과거와는 다르게 더 많은 데이터를 저장해도 큰 비용이 들지 않습니다. 또한, 클라우드를 통해 여러 곳에 방치되어 있거나 잠들어 있는 데이터에 쉽게 접근하고 분석할 수 있는 기반이 마련되었습니다.

다른 요인은 대규모의 데이터를 분산 처리할 수 있는 기술과 이를 시각화하는 분석 프로그램의 발전입니다. 하둡(Hadoop)과 같이 분산 응용 프로그램을 지원하는 소프트웨어 프레임워크를 통해 데이터 분석이 쉬워졌습니다. 팍사타(Paxata)와 같이 머신러닝과 자연어 처리 등을 활용해 데이터를 자동으로 분석하는 솔루션도 등장하며 데이터 활용 범위가 확대됐습니다.

데이터 저장 인프라와 데이터 처리, 분석 소프트웨어는 결국 사람이 할 수 없는 수준의 방대한 데이터를 분석합니다. 다크 데이터에서 필요한 데이터와 패턴을 찾아 분석하는 방식의 핵심은 머신러닝을 활용한 비정형 데이터 분석 기술입니다. 텍스트 분석, 이미지 인식, 자연어 처리 등 다양한 기술을 활용해 다크 데이터가 가진 패턴을 추출해 숨겨진 인사이트를 찾는 것이 다크 데이터를 빛나게 할 수 있습니다.

l 비정형 데이터 (출처: epam.com)

데이터 시각화 기술도 중요합니다. 모든 데이터 소스를 연결하고 단일 대시 보드에 표시해 데이터에 대한 실시간 가시성을 확보합니다. 대시 보드를 통해 차트와 그래프 등으로 시각화되면 가장 중요한 정보가 눈에 띄게 됩니다. 기업이나 의사 결정권자는 다크 데이터에서 인사이트를 얻어 신속하고 정보에 입각한 결정을 내릴 수 있습니다.

IT 업계를 중심으로 다크 데이터의 중요성이 커지면서 다크 데이터에 대한 가치에 관심이 높아졌습니다. 컨설팅 기업 액센츄어는 개인 의료비 내역, 병원 방문 횟수 등의 다크 데이터를 개인 건강 관리 서비스에 활용할 경우 2030년까지 2,000억 달러(약 239조 원) 이상의 부가 가치가 창출될 수 있다고 밝혔습니다.

대형 IT 기업은 아예 다크 데이터를 분석하는 기업을 인수하고 조직을 키우고 있습니다. 애플은 비정형 데이터를 처리하는 래티스 데이터(Rattice Data)를 인수했고, 아마존은 하베스트(Harvest)를 인수했습니다. 두 기업은 다크 데이터를 분석해 기존에 없는 명령어와 사용자의 행태를 파악해 시리(Siri)나 알렉사(Alexa)와 같은 인공지능 음성 스피커 수준을 높이는 데 활용할 수 있습니다.

다크 데이터와 프라이버시

다크 데이터는 잘 활용하면 유용한 데이터지만, 잘못된 활용은 여러 위험을 불러올 수 있습니다. 데이터의 정합성, 신뢰성 등을 확인하지 못한 데이터는 분석하더라도 신뢰하기 어려울 수 있습니다. 다크 데이터 여부를 떠나서 신뢰할 수 있는 데이터인지 먼저 판단해야 합니다. 분석 및 활용이 가능한 데이터인지 파악해야 하며, 잘못 분석된 다크 데이터는 의사 결정에 큰 악영향을 줄 수 있습니다.

금융 거래에서 발생한 금융 정보나 휴대전화를 비롯한 개인정보 등 민감한 데이터는 다크 데이터를 활용한다는 명목 아래 잘못 활용하면 법률 및 규제에 부딪힐 수 있습니다. 또한, 이러한 정보를 탈취하기 위한 시도도 존재합니다. 따라서 중요한 데이터를 보관하는 것과 다르지 않게 다크 데이터 역시 안전하게 보관할 수 있는 사이버 보안이 매우 중요합니다.

l 데이터 보안 (출처: envato)

다크 데이터 분석 전 개인 데이터에서 이름, 이메일 주소, 휴대전화 번호 등과 같은 정보가 누구의 정보인지 파악할 수 없도록 데이터를 익명화하고 보안 관련 조치를 해야 합니다. 만약 다크 데이터를 활용할 수 없다면 잘 지우는 것도 중요합니다. 불필요한 다크 데이터는 귀중한 공간을 차지하는 존재로 남아 있습니다. 필요 없는 데이터는 삭제하는 것이 자원과 비용의 낭비를 줄일 수 있습니다.

인공지능의 연료

다크 데이터는 어떻게 정의하고 분류, 분석하는지에 따라 기업 활동이나 경제 활동에 큰 도움을 줄 수 있습니다. 물론 단순히 서버에 저장된 데이터를 찾아 분석한다고 다크 데이터를 활용한다고 볼 수는 없습니다.

먼저 어떤 데이터가 다크 데이터인지, 어디에 있는지 파악하는 것이 최우선입니다. 그리고 모든 다크 데이터가 숨은 가치를 가진 것도 아닙니다. 시장조사기관 가트너에 따르면 실제 경영에 활용 가치가 있는 다크 데이터는 전체의 15% 수준에 그친다는 보고가 있습니다.

제대로 다크 데이터를 활용하기 위해서는 공통적인 분류 기준과 처리 방법 등이 필요합니다. 산업, 업종 별로도 활용할 수 있는 데이터의 종류와 분석 방식이 각각 다르며, 법률이나 규제 때문에 가치가 있지만 활용할 수 없는 데이터도 있습니다. 최근의 다크 데이터에 대한 인기와 관심과는 달리 여전히 활용하기 어려운 상태입니다. 따라서 이를 전문적으로 다루는 기업과 컨설팅 기업들은 연구를 지속하며 분류 및 분석 기법을 계속 보완하고 있습니다.

흔히 빅데이터를 인공지능 시대, 4차 산업혁명 시대의 원유라고 표현합니다. 다크 데이터는 정제되지 않은 수많은 데이터가 준비된 유전과도 같습니다. 유전에서 찾아낸 데이터를 정제하면 원유로 활용할 수 있는 새로운 데이터가 됩니다. 다크 데이터는 자칫 놓치고 있는 중요한 가치나 인사이트를 전해줄 숨겨진 자원입니다. 지금부터 하나씩 잠자는 데이터를 깨워보면 어떨까요?

글 l 윤준탁 l IT 저널리스트

챗봇과 대화를 할 수 있어요