본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

빅데이터 분석 플랫폼, 데이터 보안의 시작은?

2021.10.22

IDC 보고서에 따르면 세계 빅데이터 분석 시장의 성장세를 2020년까지 연평균(CAGR) 11.9%로 예상하며, 특히 클라우드 플랫폼을 통한 데이터 분석 환경 구축 및 전문적인 분석 서비스의 요구와 관심이 높아지고 있다고 합니다.

l 세계 빅데이터 분석 시장의 성장세 (출처: IDC)

중요한 자산인 데이터 그 자체보다는 데이터를 통해 의미 있는 규칙과 인사이트(Insight)를 찾아내고 여기에 부가적인 가치를 창출하는 분석 기술과 분석 서비스가 요즘 더 많은 관심과 노력이 집중되고 있습니다.

데이터 수집 영역부터 기술의 발전으로 수집 속도는 점점 빨라지고, 수집되는 데이터 양도 크고 방대해지고 있습니다. 물론 그것에 비례해서 출처를 알 수 없거나 왜곡되고 저품질의 데이터뿐만 아니고 회사의 기밀정보, 고객의 개인정보 또한 늘어나고 있습니다. 

빅데이터 분석 플랫폼의 데이터 보안은 수집 단에서부터 시작된다

그래서 직접 빅데이터 분석하거나, 분석 서비스를 의뢰하는 고객들의 가장 큰 고민거리가 데이터 유출 영역이며, 클라우드 기반의 빅데이터 분석 플랫폼인 경우 더 많은 우려와 걱정이 있는 것입니다. 이전 블로그에서 언급한 것처럼 APT 기반의 외부 공격과 내부 직원에 의한 유출이 또한 중요하게 생각될 수 있습니다.

어떻게 클라우드 플랫폼 기반에서 빅데이터를 수집 단계부터 폐기될 때까지 보호할 수 있을까요? 데이터 유출 방지는 수집 영역의 데이터 거버넌스로 시작해서 상호 연관된 일관된 정책을 적용할 수 있는 통합 관리 방안이 만들어져야 합니다.

● 데이터 거버넌스

다양한 채널과 디바이스를 통해서 대량의 데이터가 생성•연계되어 수집되기 때문에 데이터 사용자와 분석가는 어디에 어떤 데이터를 어떻게 활용할 것인가를 판단하고, 이 데이터를 처리하는 방법과 절차를 알아야 합니다.

데이터의 출처 및 근원 관리를 위해 빅데이터의 버전 관리, 기관 인증, 출처 추적, 생명주기 관리 등과 같은 데이터 신뢰성을 제고할 방법이 확보되고, 분산된 다중 사이트(데이터 레이크)의 메타 데이터가 상호 연동될 수 있어야 하고, 데이터 형식도 사전에 정의되어야 합니다.

데이터 거버넌스는 메타 데이터 관리로 시작됩니다.

메타 데이터(Meta Data)란?

데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이다. 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다. 어떤 데이터 즉 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 말한다.

● 메타 데이터 관리

빅데이터의 효과적 분석을 위한 내•외부 데이터 간의 메타 데이터 관리가 가능해야 합니다. 비정형 데이터에 존재하는 마스터 데이터를 식별하고, 다양한 데이터 형식을 하나의 형식으로 변환하기 위해 일련의 통합 규칙과 논리적 연결고리를 유연하게 관리할 수 있도록 메타 데이터를 관리해야 합니다.

데이터 수집 및 통합 분석의 핵심 정보들은 싱글 뷰를 제공하기 위해 기준 정보 데이터 분류에 따른 식별자 속성을 정하고, 그 기준에 의해 다른 시스템에 분산된 정보와 융합해야 한다는 것입니다.

다시 말해 메타 데이터 관리를 통해서 기밀정보, 생명주기 관리, 개인정보, 민감정보 등 보안 및 보호가 필요한 속성에 대한 정책 및 관리 기준을 설정 관리할 수 있습니다.

빅데이터 플랫폼에 수집되는 데이터는 수집부터 폐기될 때까지 관리되고 모니터링되어야 합니다. 데이터 레이크는 또 다른 수집 영역의 이름이 될 수 있습니다.

데이터 레이크(Data Lake)란?

오픈소스 기반의 Business Intelligence 기업 펜타호(Pentaho)의 창립자이자 CTO인 제임스 딕슨(James Dixon)이 2014년 처음으로 사용한 용어로 정제되지 않은 다양한 형태의 데이터 저장소를 의미한다.

데이터 레이크의 주요 기능을 알아야 수집 영역에서 데이터 유출 보안을 위한 고려 사항을 찾아낼 수 있습니다.

빅데이터를 활용할 수 있도록 정제되지 않은 원천 데이터를 한 곳에 통합 저장해 인사이트를 도출해 내기 위해 생성된 개념으로 주요 기능은 다음과 같습니다.

  • 가공되지 않은 상태의 다양한 비정형 형태 포맷의 데이터를 저장하고 가공할 수 있어야 합니다.
  • 전통적인 기술로 처리하기 어려운 규모의 대용량 데이터를 저장•관리할 수 있어야 하며, 비용을 최소화할 수 있도록 클라우드 기반의 스토리지를 제공할 필요가 있습니다.
  • 데이터 입력 및 활용을 위한 표준화된 인터페이스와 활용 대상 데이터의 메타 정보를 제공해야 분석가들의 활용도를 올릴 수 있습니다.
  • 데이터를 찾고 가공할 수 있는 스크립트 언어 또는 SQL과 같은 도구가 필요합니다.
  • IoT 데이터가 중요한 데이터의 원천이므로 정적 데이터의 처리 이외에도 동적 스트리밍 데이터의 동적 분석이 가능해야 합니다.

여기에 데이터 처리 오케스트레이션(Orchestration) 기능 또한 필요합니다.

여기 언급된 주요 기능에 꼭 필요한 부분은 보안 관점에서 데이터 레이크에 저장된 데이터의 접근과 변경에 대한 사용자•분석가 관점의 보안 정책이 수립되고 적용되어야 합니다.

데이터 접근 통제하는 인증(Authentication)과 데이터 활용 권한을 통제하는 인가(Authorization) 기능 및 각종 데이터 관리 및 활용에 대한 감사(Audit) 기능이 필요합니다.

데이터 레이크 솔루션을 제공하는 기업 중에는 T 사는 최근 아파치 하둡(Apache Hadoop), 아파치 스파크(Aparch Spark), 아파치 나이파이(Apache Nifi)와 같은 최신 오픈소스를 기반으로 하는 데이터 레이크 관리 소프트웨어 플랫폼을 제공하고 있는데 관련 솔루션 적용 시 인증, 인가 및 감사 증적에 필요한 로그 기능 확인해 봐야 합니다. 

수집 영역부터 법과 제도가 고려 되어야 한다

정부 관계 부처는 개인정보 비식별 조치 가이드라인(2016년)을 수립하였습니다. 현행 개인정보 보호 법령의 틀 내에서 빅데이터가 안전하게 활용될 수 있도록 하는데 필요한 개인정보의 비식별 조치 기준과 비식별 정보의 활용 범위 등을 제시했습니다.

l 개인정보 비식별 조치 가이드라인 (출처: 관련 부처 합동. 2016)

또한 금융권 클라우드 서비스 이용 가이드(2016년, 금융 보안원)에서도 금융 회사가 클라우드를 이용하려면 ‘비 중요 정보 처리 시스템’으로 지정하도록 하고, 비식별화 조치 가이드라인을 준수하여 비식별화한 경우 ‘비 중요 정보 처리 시스템’으로 지정 가능함을 명시하여 금융권에서도 클라우드를 통한 빅데이터 분석이 가능하게 되었습니다.

그래서 자사의 D 플랫폼에서 아래와 같은 비식별화 프로세스를 활용하고 있습니다.

l 비식별화 적용 절차

개인정보 비식별 처리에는 가명화와 익명화로 크게 구분할 수 있고, 가명화의 경우 추가적 정보를 활용하면 개인을 식별할 수 있어 식별 가능한 개인정보로 봐야 한다고 명시되어 있습니다. 여기서 지나친 비식별 기술을 적용할 경우 데이터 활용도가 떨어질 수 있습니다.

정부는 빅데이터 산업 육성을 위해 개인정보 비식별화 조치와 기술 안정성 확보에 속도를 내고 있으며, 특히, 규제 완화를 위해 가명 정보 활용이 가능하도록 입법화를 추진하고 있습니다.

결과적으로 현 국내법상으로 클라우드에서 개인정보를 분석할 수 있는 경우는 고객으로부터 명시적으로 동의를 받았거나 비식별화 조치를 수행되어야 많은 법적 이슈가 되지 않을 것으로 판단됩니다. 

수집 영역부터 시작하는 데이터 보안을 위해서는 어떻게 해야 할까?

APT(Advanced Persistent Threat)와 같은 더 지능적인 해킹 방식이 증가하고 내부 사용자에 의한 정보 유출의 위협이 늘면서 단순히 네트워크 또는 시스템 레벨에서 차단하는 경계선 기반의 보안 솔루션 만으로는 100% 정보 유출을 막을 수 없습니다.

데이터 자체를 보호하는 데이터 암호화 적용과 로깅을 기본적인 사항이며, 빅데이터 활용의 특성상 여러 사람이 공유하고 이동하는 것을 효율적으로 관리하는 데는 일부 한계가 있어, 문서 보안 솔루션이라고 부른 DRM 기반 솔루션도 고려해 볼 수 있습니다.

또한 앞에서 언급되었던 개인정보 보호법 준수를 위한 개인정보 비식별화 적용 또는 향후 입법화되면 적용될 수 있는 가명화가 고려되어야 합니다.

실제로 데이터를 활용하는 환경에서 이런 ‘암호화, 로깅, DRM, 비식별화, 데이터 보안 솔루션을 어떻게 적용할 것인가?’와 ‘보안 정책과 생명주기에 따른 통합 관점에서의 보안’이 더 중요한 문제입니다.

l 한국데이터 진흥원 2017 데이터 산업 백서

정리를 해보면 다음과 같습니다.

  • 분석가 및 사용자 환경의 물리적 접근 통제는 기본적으로 확보되어야 하며
  • 어떤 중요한 데이터를 어떤 형태로 어느 곳에 보관하고 있는지를 관리할 수 있는 ‘데이터 거버넌스’를 수립하고 그 기반에 메타 데이터 관리 및 접근통제를 적용하고,
  • 권한이 있는 여러 분석가가 공유하고 이동하면서도 보안정책과 생명 주기에 따는 암호화 및 DRM 등의 복합적인 보안 솔루션 적용이 필요하며
  • 실제 이러한 데이터들의 사용 현황과 로그가 모니터링되고
  • 다양한 시스템 로그들의 연관 관계를 분석해서 내부 데이터 유출의 리스크를 최소화 있도록 데이터 수집 영역에서부터 통합 관리해야 어떠한 보안 위협에서도 중요한 정보를 안전하게 보호할 수 있습니다.

빅데이터 플랫폼이 더욱 확대되기 위해서는 사용자의 쉬운 접근성 확보, 클라우드 기반 서비스 확대와 더불어 데이터 생명주기에 따른 데이터 보안을 확보하는 것이 필수적이라고 판단됩니다.

글 l LG CNS 보안컨설팅팀

챗봇과 대화를 할 수 있어요