개인정보가 개인정보가 아니어야 한다!?

2016년 6월 30일, ‘개인정보 비식별 조치 가이드라인’이 정부 6개 부처 합동으로 발간되었습니다.

빅데이터를 활용하여 다양한 통계분석, 마케팅 등에 이용할 때, 가장 문제가 될 수 있는 것이 바로 개인정보입니다. 우리나라는 ‘개인정보보호법’을 필두로 정통망법, 신용정보보호법 등 다양한 법을 통해 개인정보의 수집•처리•이용•제공에 대해서 통제가 이루어지고 있는데요. 이러한 통제는 갈수록 더 강력해지고 있는 상황입니다.

빅데이터 산업 활성화를 위해서 정부에서 개인정보를 비식별 해서 사용할 수 있도록 하는 가이드라인을 만들었습니다. 그동안은 통신, 금융, 공공 등 정부 부처 간에 서로 비슷한 듯 다른 각각 가이드를 제시하던 것을 하나로 통합해서 가이드라인을 발표한 것인데요. 물론, 아직도 개인정보를 보호하자는 측과 활용하자는 측 사이에는 너무 쉽게 활용 권한을 주었다는 것과 그 정도로는 활용이 어렵다는 의견으로 갈리고 있습니다.

어쨌든, 가이드라인을 지켜야 개인정보를 활용할 수 있다고 하니, 그렇다면 개인정보를 어떻게 처리해야 빅데이터 분석에 활용할 수 있는지 살펴보고 어떤 점을 주의해야 하는지 생각해 보도록 하겠습니다.

개인정보 비식별 조치란?

문구 그대로 정보주체, 즉 특정 개인을 알아볼 수 없도록 암호화, 부분삭제, 대체, 범주화 등의 다양한 방법으로 개인정보를 변경•변환 조치하는 것을 말합니다. 이를테면 홍길동이라는 이름을 홍** 또는 “홍씨 성을 가진 사람” 등으로 변경한다면 누군지 알아볼 수 없게 되겠죠

다만, 개인정보라는 것은 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보도 포함한다는 것을 유의하여야 하겠습니다. “홍길동, 20살, 남자, 서울시 영등포구 여의도동 FKI 1층” 등의 여러 가지 개인정보가 있으면, 모든 개인정보가 적절하게 잘 비식별화될 수 있도록 해야 합니다. 비식별화 방법에 대해서는 서두에 말씀드렸던 “개인정보 비식별 조치 가이드라인”에 자세히 나와 있습니다. 이 부분은 뒤쪽에서 좀 더 알아보도록 하겠습니다.

그렇다면 왜 개인정보를 비식별 조치해야 할까요?

서두에서 말씀드린 바와 같이 우리나라에는 개인정보보호법, 정보통신망법, 신용정보보호법 등의 다양한 법규정을 통해 개인정보에 대한 보호를 의무화하고 있습니다. 이러한 법적인 제약 사항을 벗어나서 자유롭게 활용하기 위해서는 개인정보를 개인정보가 아니도록 조치해서 활용해야 합니다.

모든 개인정보보호 관련 법규에서는 기본적으로 개인정보를 수집할 때 어떤 개인정보를 어떤 목적으로 이용•활용하기 위해서 수집하는지를 정보 주체에게 동의 받도록 하고 있습니다. 그러나 요즘 같은 빅데이터 분석•활용에서는 개인정보를 아주 다양한 분야•목적으로 활용할 수가 있을 텐데요.

이럴 경우, 개인정보를 수집할 때 동의받았던 이용 목적에 벗어나게 된다면, 당연히 법적인 제재(벌금, 징역, 과태료 등)를 받게 됩니다. 따라서, 개인정보가 포함된 빅데이터를 자유롭게 분석•활용을 하기 위해서는 개인정보를 개인정보가 아닌 것으로 만들어야 합니다. 그렇기 때문에 비식별화 또는 익명화가 필요한 것입니다.

반대로, 빅데이터 분석•활용에 대해서 개인정보 수집할 때 이용 목적에 포함해서 동의를 받았다면, 동의 받은 범위 내에서는 제약없이 자유롭게 빅데이터 분석•활용할 수 있겠죠.

개인정보 비식별은 어떻게 해야 할까요? – 개인정보 비식별 조치 가이드라인

그렇다면 개인정보 비식별화는 어떻게 해야 할까요?

그 답은 ‘개인정보 비식별 조치 가이드라인’에서 찾을 수 있습니다.

l 비식별 조치 및 사후관리 절차(출처: 개인정보 비식별 조치 가이드라인)

가이드라인에 어떤 비식별 조치 방법이 있는지 간단히 알아보도록 하겠습니다.

17개 항목별 세부 방법은 가이드라인을 참고하시기 바랍니다.

개인정보에는 성명, 주소, 성별, 나이, 이메일 주소, 핸드폰 번호 등 다양한 형태가 있습니다. 빅데이터에는 하나의 개인정보만이 있는 것이 아니라, 여러 가지 개인정보가 존재할 것입니다. 개인정보를 비식별화한다고 해서 무조건 개인정보가 아닌 것이 되지는 않습니다. 비식별화된 개인정보라도 여러 개를 결합하면 특정 개인을 식별할 수 있습니다. 따라서, 가이드라인에서는 재식별이 안 되도록 잘 조치를 취했는지 평가받는 절차도 알려주고 있습니다.

적성 평가 절차

① (기초자료 작성) 개인정보처리자는 적정성 평가에 필요한 데이터 명세, 비식별 조치 현황, 이용기관의 관리 수준 등 기초자료 작성
② (평가단 구성) 개인정보보호 책임자가 3명 이상으로 평가단을 구성(외부전문가는 과반수 이상)
③ (평가 수행) 평가단은 개인정보처리자가 작성한 기초자료와 k-익명성 모델을 활용하여 비식별 조치 수준의 적정성을 평가
④ (추가 비식별 조치) 개인정보처리자는 평가결과가 ‘부적정’인 경우 평가단의 의견을 반영하여 추가적인 비식별 조치 수행
⑤ (데이터 활용) 비식별 조치가 적정하다고 평가받은 경우에는 빅데이터 분석 등에 이용 또는 제공이 허용

적정성 평가를 할 때 비식별 조치를 잘 했는지 평가하게 되는데요. 다음과 같은 프라이버시 보호 모델이 사용됩니다.

l 프라이버시 보호 모델: 재식별 가능성 검토 기법(k,l,t 값은 전문가 등이 검토하여 마련)
※ 우리나라의 경우에는 k-익명성 모델을 기본적으로 적용하고,
필요시 추가적인 평가모델인 l-다양성 모델과 t-근접성 모델까지 적용

적정성 평가는 현재 6개 분야별 전문기관을 통해서 받도록 하고 있습니다.

● 분야별 전문기관
각 소관부처 책임 하에 분야별 전문기관을 정하여 운영
-한국인터넷진흥원, 한국신용정보원, 금융보안원, 사회보장정보원, 한국정보화진흥원

● 분야별 전문기관의 역할
– 비식별 조치 적정성 평가단 풀(비식별 조치 기법 전문가, 법률 전문가 등) 구성,운영
– 산업별로 필수적인 비식별 조치 이행 권고(k-익명서 수치 등)
– 비식별 조치 적정성 실태 점검 등

또한, 가이드라인에서는 비식별 조치를 했다고 하더라도, 보호조치를 하도록 요구하고 있습니다. 비식별 조치된 정보라도 다른 정보와 결합해서 재식별될 우려가 있기 때문에 필수적인 보호조치를 이행해야 하는 것이죠.

이렇게 보호조치만 하면 되는 것은 아닙니다. 또한, 재식별 가능성에 대해서 모니터링하여 재식별이 발생하는지도 관리해야 합니다.

k-익명성, ℓ-다양성, t-근접성? (프라이버시 보호 모델)

앞서 개인정보 비식별 조치에 적정성 평가를 하면서 프라이버시 보호 모델로 평가를 받는다고 말씀드렸었는데요. 가이드라인에서는 k-익명성을 기본으로 ℓ-다양성, t-근접성을 보조 수단으로 평가하도록 안내하고 있습니다. 따라서, 개인정보 비식별 조치를 하려는 분들은 이 프라이버시 보호 모델을 자세히 알 필요가 있습니다.

k-익명성은 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여, 쉽게 다른 정보로 결합할 수 없도록 하는 방법입니다. 다음은 의료 데이터의 지역, 연령, 성별을 비식별 조치하여, 동질 집합에서는 k-익명성을 4로 만들어 특정 개인의 질병을 식별하지 못하도록 조치한 사례입니다.

그러나, 개인은 식별이 안 되더라도 특정 동질 집합에서 서로 같은 민감한 정보를 가지고 있을 경우 식별이 가능합니다. 예를 들어, “130**” 지역의 30대에 해당하는 사람들을 모두 위암이라고 식별할 수 있게 되는 것입니다.

이를 방지하기 위한 것 중에 하나가 ℓ-다양성입니다. 주어진 데이터 집합에서 함께 비식별 되는 레코드들은 동질 집합에서 적어도 ℓ개의 서로 다른 민감한 정보를 가지도록 하여 식별이 어렵게 하는 것입니다. 아래는 서로 다른 질병이 3개 이상 존재(ℓ-다양성=3)하게 하여 동질성 공격, 배경지식에 의한 공격으로부터 재식별을 방지하고 있습니다.

동질성: k-익명성에 의해 레코드들이 범주화 되었더라도 일부 정보들이 모두 같은 값을 가질 수 있을 경우 공격 대상의 정보를 알아낼 수 있음
배경지식: 주어진 데이터 이외의 배경 지식(여자는 전립선에 걸리지 않는다, 남자는 자궁암에 걸리지 않는다 등)을 통해 공격 대상의 민감한 정보를 알아냄

마지막으로 t-근접성입니다. t-근접성은 분포가 좁아서 개인정보 재식별이 가능한 데이터에 적용합니다. 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터 집합의 분포와 비교하여 너무 특이하지 않도록 하여, 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는 방법입니다. 전체 데이터 집합의 분포와 특정 정보의 분포 차이를 t 이하로 하여 추론을 방지합니다.

아래에서 1~3번째 데이터는 급여가 모두 다르지만, 30~50만 원으로 좁은 분포도를 보입니다. 또한, 질병 종류도 모두 다르지만 모두 위 관련 질병입니다. 정확하게 같은 값을 가지지 않더라도 쏠림 현상이나 유사한 데이터가 있는 경우, 개인정보 재식별이 가능합니다. 이를 방지하기 위해 t-근접성을 적용하여 1~3번째 집합의 급여 분포도를 다른 집합과 비슷한 수준으로 적용하고 질병의 종류를 다양하게 적용하여 쏠림, 유사성 공격을 방지합니다.

가이드라인에는 개인정보를 분류하는 방법에 식별자, 속성자가 있습니다. 식별자는 쉽게 말하면 ‘그 자체로 개인을 식별할 수 있는 정보(성명, 전화번호, 주소, 생년월일, 주민등록번호 등)’라고 할 수 있으며, 속성자는 ‘다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보(성별, 연령, 학교명, 혈액형, 병명, 신용등급 등)’라고 할 수 있겠습니다. 현실에서는 식별자, 속성자보다는 식별자, 준 식별자로서 더 많이 불리고 있습니다.

준식별자에는 질병, 신용등급 등의 민감정보가 포함되어 있습니다. 식별자는 반드시 비식별 조치가 되어야 하며, 준식별자에 대해서도 식별 요소가 있으면 비식별 조치를 해야 합니다.

여기 한가지 유의할 점이 있습니다. 위에 설명에 나와 있지만, ℓ-다양성과 t-근접성은 민감정보의 분포에 대해서 평가하는 모델입니다. 그렇다면 k-익명성은 민감정보와는 상관없는지 궁금하실 겁니다. 일단은 그렇다고 할 수 있겠습니다. k-익명성은 민감정보 이외의 준식별자에 대해서 평가하는 모델이라고 할 수 있습니다.

또한, k-익명성이 레코드 한 행 전체(지역 코드+연령)를 평가한다면, ℓ-다양성과 t-근접성은 민감정보 각각을 평가하는 모델(급여와 질병을 각각 평가)이라고 할 수 있겠습니다. 식별자는 당연히 그 자체로 개인정보이므로, 개인정보가 없어야만 적정성 평가를 받으니, k•ℓ•t 평가 모델과는 상관이 없다고 할 수 있습니다.

현재의 가이드라인에는 k•ℓ•t 3가지가 있습니다만, 프라이버시 보호 모델에 대해서는 이외의 다른 모델들도 있고, 새로운 연구들도 계속 되고 있습니다. 대표적으로 애플 관련한 최근 신문 기사에 나왔던 Differential Privacy(차등•차분 프라이머시)가 있습니다.

애플이 아이폰이나 아이패드를 사용하지 않는 고객들의 정보를 수집하면서 분석 결과에는 영향을 주지 않으면서, 개인정보에 노이즈를 주입하여 비식별화하는 방법으로 DP 알고리즘을 이용한다고 보도되었습니다. 그러므로 언젠가는 새로운 모델에 의해서 비식별 조치를 하거나, 적정성을 평가받게 될 수도 있겠습니다.

개인정보 비식별 조치 시 유의할 점은?

앞에서 개인정보에 대한 여러 가지 비식별 방법과 이에 대해서 k-익명성, l-다양성, t-근접성 등을 이용해서 평가하는 방법에 대해서 알아봤습니다. 이번에는 비식별 조치를 하는 데 있어서 고려할 사항에 대해서 알아보려고 합니다.

먼저, 빅데이터 내에 어떤 개인정보가 있는지 잘 식별해야 합니다.

어떤 개인정보가 있는지 알아야 비식별 조치도 할 수 있고, 관련 법규에서 요구하는 보호조치도 취할 수 있겠죠. 혹시라도 특정 개인정보를 빼먹는다면, 법적인 위반 문제뿐만 아니라, 적정성 평가 시에 비식별 조치가 제대로 안 된 것으로 판단되어 평가 자체가 진행되지 않을 수도 있습니다. 어떠한 개인정보가 있고, 어느 것이 식별자인지 준식별자인지, 민감정보는 어떤 것인지도 식별해야 한다면, 이를 어떠한 방법으로 비식별할 것인가가 먼저 결정되어야 합니다.

두 번째는, 수집되는 개인정보에 대한 이용•활용 목적을 파악하는 것입니다.

가이드라인에 따르면 개인정보를 비식별 조치하여 활용할 경우 적정성 평가를 받도록 요구하고 있습니다. 개인정보가 아닌 것으로 평가받은 후에라야 인터넷 공개, 제3자 제공뿐만 아니라 내부적으로 활용이 가능한 것입니다. 다만, 빅데이터 분석•활용에 대해서 동의받은 개인정보라면, 동의 목적대로 활용하는 것이므로 별도로 적정성 평가를 받지 않아도 괜찮겠습니다. (빅데이터 분석•활용을 동의 받은 개인정보라면 비식별 조치를 안한 상태로도 빅데이터 분석•활용이 가능합니다).

그러나, 동의받지 않은 개인정보라면, 개인정보가 아닌 것으로 평가를 받은 후에 활용할 수 있고, 평가는 외부 전문기관을 통해서 받아야 합니다.

세 번째는, 빅데이터의 활용 방향의 결정입니다.

개인정보 비식별 조치의 가장 좋은 방법은 당연히 개인정보를 없애는 것입니다. 빅데이터를 활용하는 데 있어서 불필요한 개인정보 있다면, 아예 삭제해 버리는 것이 좋습니다. 이를테면 성명을 빅데이터 분석에 활용하지 않는다면, 굳이 빅데이터 내에 저장해둘 필요가 없으니, 삭제하는 것이 바람직합니다.

빅데이터라는 것은 수백 기가, 수십 테라 이상의 엄청난 규모의 데이터가 모일 수 있는데, 이를 비식별 조치하는 것에도 많은 리소스와 시간이 소요되게 됩니다. 개인정보를 삭제한다면 불필요한 리소스, 시간을 줄일 수 있습니다. 또한, 다른 개인정보와 결합하여 재식별될 수 있는 위험도 줄일 수 있게 됩니다. 빅데이터를 분석하여 어떤 정보를 얻을지 결정하고, 그에 필요한 최소한의 개인정보만 수집하는 것이 좋겠습니다.

네번째는, 비식별 조치의 방법과 수준을 결정하는 것입니다.

각각의 개인정보들에 대해서 어떤 방법으로 비식별 할지를 결정해서 암호화, 가명화, 라운딩 등의 다양한 방법으로 비식별 조치를 수행합니다. 빅데이터에 대한 분석•활용 방향에 따라서 비식별 조치의 방법과 수준을 결정해야 합니다.

10대, 20대, 30대 등의 연령대별로 분석결과를 얻고자 한다면 나이를 10~19는 10대, 20~29는 20대, 30~39는 40대 등으로 라운딩 처리하여 비식별 처리를 할 수 있습니다. 좀 더 세밀하게 연령대를 구분하고 싶다면 10이 아닌 5를 범위 기준값으로 설정해서 비식별 처리를 할 수도 있습니다. 10~14, 15~19, 20~24, 25~29, 30~34, 35~39 등으로 연령대 설정을 조정할 수 있습니다.

비식별 조치의 가장 큰 딜레마는 비식별 조치를 높게 할수록(이를테면 k-익명성 값을 높일수록) 분석을 위한 활용도는 떨어진다는 것입니다. 앞에서 말씀드렸던 나이를 10단위로 구분하는 것보다는 5단위로 구분하는 것이 보다 정밀한 분석 결과를 얻을 수 있듯이, 비식별 조치를 강하게 하면 할수록, 좀 더 자세한 빅데이터 분석이 어려워지는 것이 사실입니다.

특히, 많은 기업에서는 빅데이터 분석 결과를 1:1 마케팅에 활용하고 싶어 하는 것이 현실인데요. 특정 개인과 관련된 모든 데이터를 분석하여 그 사람의 구매 성향, 서비스 이용 성향 등을 파악하고 싶어 합니다. 그러나, 비식별 조치를 높게 하면, 분석 대상에 포함되는 모집단의 사람 수가 늘어나게 되므로, 특정 개인의 성향이 아닌 지역이나 연령대 등 집단의 성향으로 분석할 수밖에 없습니다.

따라서 1:1 마케팅의 효과가 떨어지게 되니, 비식별 조치를 어느 정도까지 해야 할지가 가장 어렵고도 곤란한 문제가 되겠습니다. 가이드라인에서는 k-익명성에 대해서 최소 3 이상을 갖도록 권고하고 있으므로 적어도 최소 기준은 충족할 수 있도록 비식별 조치를 해야겠습니다.

개인정보 비식별 조치 방법과 수준의 결정은 개인정보 비식별화 솔루션들을 활용하는 것도 효과적인 방법입니다. (펜타시큐리티 DataEye PIDI, 파수닷컴 Analytic DID, 이지서티 K-Tiger•Indentity Shield 등)

다섯 번째는, 비식별 조치를 어디에서 하느냐에 대한 것입니다.

빅데이터 분석을 위해서 기관•기업 내의 각종 데이터를 한곳으로 수집해야 할 텐데, 그렇다면 비식별 조치는 수집한 후에 해야 할지, 수집하기 전에 해야 할지 결정이 필요합니다. 왜냐하면, 수집한 후에 비식별 조치를 하게 된다면 빅데이터 분석 시스템도 하나의 개인정보처리시스템이 되기 때문입니다. 개인정보처리시스템이 된다면 당연히 개인정보보호 관련 법규에서 요구하는 보호조치를 취해야 합니다.

수집하기 전에 한다면 어떨까요?
이를테면 수집 대상 시스템에서 비식별 조치를 취한 데이터를 보낸다면, 빅데이터 분석 시스템은 비식별 조치가 적정하다고 평가하고, 일반 정보시스템으로 개인정보 관련 보호조치를 취하지 않아도 되겠죠. 수집 대상 시스템은 이미 개인정보처리시스템일 것이고, 그에 따른 보호조치도 이미 취해져 있을테니, 수집 대상 시스템에서 사전에 비식별 조치를 위하는 것이 좀 더 효율적인 방법이라고 할 수 있겠습니다.

이 부분에 대해서는 비용적인 측면과 법, 제도적인 측면까지 다 고려되어야 하는 부분으로 어느 것이 더 효율적인지 사전에 따져보는 것이 필요합니다. 다시 말해서, 빅데이터 분석 시스템을 구축할 때는 수집 방법에 따라서 개인정보 보호조치나 기존 시스템의 개발에 소요되는 비용까지 고려해야 한다는 것입니다.

여섯 번째는, 비식별 조치에도 한계가 있다라는 것입니다.

비식별 조치를 아무리 잘한다고 해도, 프라이버시 보호 모델로 평가해보면 k-익명성을 만족하지 못하는 데이터들이(k-익명성 최소 만족치인 3 미만인 데이터들) 남아 있을 수 있습니다. 비식별 조치 방법을 강화해서(시군구 주소를 시만 하는 등) 이러한 데이터를 줄일 수는 있겠습니다만, 좀 더 다양하게 빅데이터 분석을 할 수 있으려면, 적정 수준에서 비식별 조치를 할 수밖에 없고, 최소 기준을 만족하지 못하는 데이터들이 계속 남을 수 있습니다.

k-익명성 등의 적정성 평가 기준을 만족하려면 안타깝지만 이러한 데이터들은 삭제하는 방법밖에 없겠습니다. 빅데이터 분석•활용 목적에 맞게 비식별 조치하면서 k•l•t 평가 모델을 활용하여 적정성 평가를 해보면서, 적정하지 않은 데이터들이 있다면 비식별 조치를 좀 더 강화할지, 일부 데이터를 삭제할지 결정해야 합니다.

삭제 안 하고 놔둔다면, 비식별을 제대로 하지 않았다는 것이고, 그러한 데이터는 여전히 개인정보가 됩니다. 또한, 개인정보를 빅데이터 분석과 활용에 이용하는 것에 대해서 정보 주체의 동의를 받지 않았다면 법적인 처벌을 받을 수 있게 됩니다. 그래서 개인정보를 빅데이터 분석•활용하기 위한 가장 좋은 방법은 개인정보 수집 시에 동의를 받는 것입니다.

가이드라인 자체적인 별도 제재는 있지 않으며 개인정보보호법, 정보통신망법, 신용정보보호법 등의 개인정보보호 관련 법규의 위반으로 제재를 받게 됩니다. 개인정보 수집•이용•제공 목적을 위반하여 빅데이터 분석•활용에 사용한다면 그에 따른 법적인 처벌을 받는 것입니다. 따라서 개인정보의 비식별 조치 및 빅데이터 분석•활용 시에 개인정보보호 관련 법규를 잘 준수하여 진행하는 것이 중요하겠습니다.

마지막으로는, 지속적인 관리입니다.

빅데이터는 어느 순간에 딱 고정된 데이터가 아닙니다. 매일매일 새로운 데이터가 쌓이고 오래된 데이터들은 삭제되게 됩니다. 새로운 데이터가 들어오면 비식별 조치도 계속해야 하고, 앞서 말씀드렸던 혼자서 튀는 값들도 다시 쌓일 수 있습니다. 이전에는 적정하다고 평가되었지만, 지금은 적정하지 않게 될 수 있습니다. 가이드라인에서도 최소 6개월에 한 번은 점검하도록 요구하고 있는데요. 따라서 정기적으로 비식별 조치 결과에 대해서 점검하는 작업이 필요합니다.

그러나, 사실 빅데이터 분석활용 시스템을 구축하다 보면 앞에서의 것들보다도 가장 우선시 되는 것은 성능입니다. 개인정보는 비식별 조치까지 해서 수집•저장하는 것과, 이를 분석하는 데에 있어서 일정 수준 이상의 성능이 나오지 않는다면, 이 시스템을 사용할 사람이 없겠죠.

따라서, 가장 중요한 것은 성능을 충분히 확보할 수 있도록 인프라를 구성하는 일입니다. 비식별 조치도 당연히 성능에 영향을 미칩니다. 특히, 암호화 방법으로 비식별 조치를 할 경우에는 CPU 부하에 많은 영향을 주므로, 성능 산정 시에는 비식별 조치 방법까지 포함해서 고려되어야 하겠습니다.

빅데이터 분석과 활용을 위해서는?

2016년 정부 6개 부처 합동으로 개인정보 비식별 조치 가이드라인이 발간되었지만, 아직은 초기 단계라서 개인정보가 포함된 빅데이터를 분석•활용하기 위한 가이드로는 아직 부족한 점이 많은 것이 사실입니다.

현재의 가이드라인은 비식별 조치 방법에 대해서만 좀 구체적일 뿐, 그 외의 비식별 조치 수준이나, 적정성 평가에 대해서는 아직 미흡한 부분들이 많습니다. k-익명성, l-다양성, t-근접성 중에 어느 것을 얼마나 만족해야 하는지도 불확실합니다. 비식별 조치나 평가에 대한 수준 등의 아직 부족한 부분에 대해서는, 정보 관련 부처에서 지속해서 연구 중이고, 다양한 사례가 쌓이면서 점점 구체화 될 것으로 여겨집니다.

사실 빅데이터 이전에 기업에서는 DW(데이터웨어하우스)라는 형태의 개인정보를 비식별 조치하여 분석•활용하는 사례가 많았습니다. DW도 소규모의 빅데이터로 볼 수 있는데요. DW는 기업이 주로 마케팅용으로 활용하기 위한 것으로, 개인정보 보호 측면에서는 사각지대였다고 할 수 있죠. 개인정보보호 관련 법규가 강화되고 있으므로, 머지않아 빅데이터뿐만 아니라 DW에서의 개인정보 비식별에 대해서도 법적인 통제가 적용될 것이라는 개인적인 생각입니다.

따라서, 개인정보 비식별 조치 및 평가에 대한 동향과 개인정보보호법, 정보통신망법, 신용정보보호법 등의 관련 법규의 개인정보 관련 조항들에 대해서도 관심을 가지고 지켜봐야 하겠습니다. 소속 분야의 전문기관에 문의를 통해서 궁금한 사항이나 이슈사항들에 대해서 미리 대비하는 것도 좋은 방법입니다. 사전에 충분한 조사와 준비를 통해서 개인정보 비식별 조치 및 보호에 대한 방향성을 잡고, 빅데이터 분석•활용을 준비하고 진행해 나가는 것이 좋겠습니다.

고객의 서비스에 대한 이용정보를 활용하여 마케팅 등에 활용하고자 하는 기관•기업들이라면(이미 DW 형태로 하고 있는 기관•기업도), 이러한 빅데이터 및 개인정보 비식별 조치와 관련한 법•제도 동향에 대해서 지속적으로 관심을 가지고 지켜보는 것이 필요하겠습니다.

글 ㅣ LG CNS 보안컨설팅팀

블로그