빅데이터 기술 『하둡(Hadoop)』에 대해 아시나요? 하둡은 페이스북, 트위터 같은 소셜 미디어나 음성과 동영상 및 기존에 분석하지 않고 버려지던 로그 데이터를 분석하는 데 유용한 기술입니다.하지만, 기업의 중요 데이터를 다루는 영역에는 하둡이 적합하지 않다는 오해를 받고 있는데요.
기업의 중요 데이터 영역은 지금까지 데이터베이스(Data Base, 이하 DB)가 주로 담당하고 있었습니다. 그래서 이와 같은 오해가 생긴 이유는 아마도 하둡은 단순 파일 처리 시스템이라는 인식과 DB가 처리하지 못했던 문서나 로그 같은 비정형 데이터 처리에 주로 많이 사용되었기 때문이 아닌가 생각됩니다.
하지만 하둡은 비정형 데이터 분석뿐만 아니라, 기업의 중요 데이터 분석에도 많이 사용되고 있는데요. 그 중 하나가 바로 DW(Data Warehouse) 영역입니다.
DW(Data Warehouse)란?
DW는 기업의 의사 결정에 도움을 주기 위해서 기업 내 여러 시스템의 DB에 축적된 데이터를 공통의 형식으로 변환하여 관리하는 DB를 말하는데요. 즉, 기업 경영에 필요한 정보를 한 곳에 모두 모아둔 정보(Data)의 창고(Warehouse)인 것이지요.
DW는 위의 [그림1]처럼, 기업 내 원천 시스템으로부터 데이터를 한 곳으로 모아서(Staging), 분석에 용이하도록 데이터를 가공•통합한 후(Data Warehouse), 분석 목적 별로 데이터를 통합•요약하는(Data Mart) 업무로 구성이 되는데요.
이렇게 생성된 데이터가 바로 사용자 분석에 이용되는 것이지요. 각 이렇게 단계별로 데이터를 수집하고 가공한 후 다음 단계로 적재는 과정을 ETL(Extract, Transformation, Load)이라고 합니다.
이러한 업무는 그 동안 분석용 데이터베이스 관리시스템(Data Base Management System, 이하DBMS)가 담당해 왔는데요. 빅데이터 시대로 접어들면서 기존의 기술로 빅데이터를 처리하는데 문제가 발생하기 시작했습니다.
빅데이터 시대에 DW가 직면한 문제들
최근 시장 조사 기관인 IDC의 자료에 따르면, 조사 대상 기업의 40% 가량은 데이터 용량이 매년 50%씩 급증하는 반면, DW는 규모 면에서 매년 18%만 증가하고 있다고 하는데요.
이는 기업들이 취급해야 할 데이터 용량이 매년 급증하고 이에 따른 DW 구축 요구는 커져가고
있지만, 기존 DW 발전 속도가 기업들의 요구에 부응하지 못하는 것을 의미합니다.1
빅데이터는 처리해야 하는 데이터가 수백 TB(테라바이트) ~ PB(페타바이트)에 이르고, 이 중 비정형 데이터가 전체의 85%를 차지하고 있는데요. 반면 DBMS는 정형 데이터 분석에 강점을 가지고 있기 때문에 비정형 데이터 처리에 유연하지 못합니다.
또한 대용량 데이터 저장의 한계와 이것을 DB로 저장, 처리하기 위해서는 너무 많은 비용이 든다는 문제가 발생하는데요. 이 때문에 빅데이터 시대에는 DBMS가 역부족이라는 문제가 제기되어 왔습니다.
이러한 문제들을 해결하기 위해서 DW 업계에서는 대용량 데이터를 빠르게 처리하기 위한 고성능의 DW 전용 어플라이언스(H/W+S/W 일체형)를 시장에 출시했습니다. 또한 기존에 미흡했던 비정형 데이터 처리 기능을 강화하고 대용량 데이터의 비용효율적인 처리를 위해 하둡과 손을 잡기 시작했습니다.
DW에서 DB와 Hadoop의 역할
하둡은 분산파일시스템(Hadoop Distributes File System, HDFS)과 분산 저장된 데이터를 병렬 처리하는 기술(MapReduce)로 이루어진 오픈소스 분산시스템입니다. 기존 DW 시스템에 비해 저가의 x86 장비를 사용하는데다 오픈 소스이므로 비용이 효율적입니다.
게다가 대용량 데이터를 고성능으로 분산 병렬 처리하고, 정형•비정형 데이터를 모두 처리할 수 있는 유연한 아키텍처가 특징인데요. 급증하는 정형•비정형 데이터를 효율적인 비용으로 저장하고 처리하기 원하는 기업들에게는 매력적인 대안인 셈이죠.
DW 전문 업체들은 이러한 요구들을 수용하기 위해 하둡 전용 어플라이언스를 출시하거나 하둡 기술을 DW 기술에 접목하는 노력들을 기울이고 있습니다.
그렇다면 기존의 DW 시스템을 모두 하둡으로 대체할 수 있을까요? 이에 대한 답을 찾기 위해 DW용 DBMS와 Hadoop의 특징을 살펴보겠습니다.
[표1]에서 보시는 것처럼 DW용 DBMS는 정형화된 데이터를 빠르게 조회하기 위해 특화된 기술인데요. 따라서 데이터 조회를 위한 기능(SQL, Query Optimizer, Index 등)이 많이 발달하였고, 동시 사용자 지원도 우수합니다.
이에 반해 하둡은 특정 업무 전용이 아닌 배치, 데이터 조회, 스트리밍 처리 등 다양한 업무를 수행할 수 있도록 범용화된 플랫폼으로 만들어졌는데요. 빅데이터 특성에 맞게 비정형 데이터 처리가 우수합니다.
하둡의 출발점이 맵리듀스(MapReduce)이다보니 배치 처리에 강점을 가지고 있는데요. 이처럼 두 기술은 어느 하나가 다른 하나를 대체할 수 있는 것이 아니라 상호 보완적인 기술이라고 할 수 있습니다.
하지만 양쪽 모두 각자의 장점을 살리면서 약점을 보완하는 방향으로 기술을 발전시켜 나가고 있어 언젠가는 특정 업무에서는 두 기술이 만나 경쟁하는 일도 생길 것으로 보입니다.
이제 처음에 보았던 [그림1]의 DW 업무 구성도를 다시 그려보겠습니다.
[그림2]는 DB와 하둡을 함께 활용한 Hybrid DW 구성도인데요. 노란색 코끼리가 있는 부분이 하둡을 적용할 수 있는 영역입니다. Hybrid DW 시스템을 구성하게 되면 하둡을 활용하여 기업 내•외부의 많은 비정형 데이터를 수집, 가공하여 DW 업무에 활용할 수 있습니다.
또한 DB가 취약했던 대량의 데이터를 변환하고 적재하는 ETL 배치 업무에 배치가 강점인 하둡을 활용하면, 비용 효율적이면서도 고성능의 ETL 시스템을 구축할 수 있게 되는 것이죠.
데이터의 보관 기간도 늘릴 수 있는데요. DB에서는 DB용량 확장의 한계 및 비용 문제로 꼭 필요한 최소한의 데이터만 보관하고 나머지는 Tape 등에 백업을 받아야 합니다. 게다가 보관기간이 지난 데이터를 분석에 활용하고 싶을 때는 다시 Tape에서 DB로 복구를 해야 하므로 시간도 많이 걸리고 불편한데요.
DB에서 보관기간이 지난 데이터를 보다 저렴한 하둡 시스템으로 온라인 백업 시스템을 구축한다면 필요할 때 언제든지 과거 데이터를 즉시 분석할 수 있습니다. 그리고 사용자 분석에 필요한 Data Mart는 하둡 대신 DB로 구축하면 다수 사용자의 신속한 데이터 조회 업무를 지원할 수 있습니다.
DW의 미래, Hybrid
기존 DW 시스템의 업무별 자원 사용률을 살펴보면, 데이터 통합 작업(ETL 작업)이 전체 자원의 80%를 소모한다고 하는데요. 데이터 조회 업무는 고작 20% 이하의 자원을 사용한다고 합니다. 즉, 비싼 DB 시스템을 도입해서 DB에 적합하지 않은 업무에 자원의 80%를 사용하고 있었던 것이죠.
미국 포레스터 리서치(Forrester Research)의 수석 애널리스트 제임스 코비엘루스는 “앞으로 하둡을 기반으로 한 DW 어플라이언스가 가장 인기 있는 플랫폼이 될 것”이라며, “많은 IT 벤더들이 하둡 껴안기에 나설 것”이라고 전망했습니다.
LG CNS는 DW플랫폼과 빅데이터 플랫폼, 데이터 가상화를 결합한 차세대 정보계 아키텍처 HIA(Hybrid Information Architecture)를 개발하여 사업을 진행하고 있는데요.
HIA를 도입하면 정형 외에도 비정형 데이터를 분석에 활용하여 분석의 정확도를 개선하고, 데이터 처리 시간 단축을 통한 의사결정의 적시성을 확보하여 분석을 위한 인프라 비용을 절감할 수 있습니다.
이미 Hybrid DW를 도입한 여러 기업에서는 데이터 처리시간 단축, 비용 절감 등의 성과를 올리고 있는데요. 각자의 장점을 가진 하둡과 DB를 결합한 Hybrid DW는 앞으로 빅데이터 시대 DW의 새로운 표준이 될 것입니다.
LG CNS 페이스북 바로가기 : http://on.fb.me/1GaqWoM
글 ㅣ LG CNS 빅데이터사업부문
[‘빅데이터 분석, 그것이 알고싶다’ 연재 현황 및 향후 계획]
● 1편 IT 인프라 장애, 미리 예측할 수 있다 : http://blog.lgcns.com/797
● 2편 보안로그, 통합하면 패턴이 보인다 : http://blog.lgcns.com/823
● 3편 안전한 결제를 보장하는 FDS(Fraud Detection System) : http://blog.lgcns.com/846
● 4편 소셜 분석으로 고객의 삶을 이해하다 : http://blog.lgcns.com/890
● 5편 DW(Data Warehouse)의 미래, Hybrid : http://blog.lgcns.com/929
● 6편 구매 심리를 예측해 매출을 올려주는 개인화 추천 : http://blog.lgcns.com/940
● 7편 스마트그린, 에너지 그리고 빅데이터 : http://blog.lgcns.com/983
● 8편 좋거나 나쁘거나 이상하거나..(빅데이터 분석 A to Z)