본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

빅데이터로 실시간 장애감지 및 분석까지!

2016.04.26

지금까지 빅데이터에 대한 화두는 주로 데이터 분석으로 시장에 대한 새로운 혜안을 얻거나, 딥러닝(Deep Learning)을 통해 불가능해 보였던 인간의 고유한 영역을 구현하는 것에 집중되었는데요. 오늘은 조금 포커스를 바꾸어 기존에 있던 시스템의 안정성을 보완하는데 활용할 수 있는 빅데이터 기술에 대해 알아보려고 합니다. 

금융, 통신, 유통 등 우리 주변 대부분의 서비스들은 인터넷 망을 통해 시간과 공간의 제약 없이 이용할 수 있는 시대가 되었습니다. 사용자들은 이제 언제 어디서든 서비스를 이용한다는 것에 익숙해졌고, 자연스레 서비스의 안정성은 당연한 것이 되었습니다.

이는 수 년간 문제없이 운영되던 서비스라도 찰나의 시스템 장애 때문에 신뢰를 잃을 수도 있다는 것을 의미합니다. 실제로 몇 년 전 한 통신업체는 30여분간 부분적인 네트워크 장애로 인해 통화품질 조사에서 3위로 밀려나기도 했습니다.

국내에 LTE(Long Term Evolution) 통신이 서비스되기 시작할 때 통신사들은 앞다투어 LTE망의 품질 경쟁력을 높이는 방안으로 전면에 ‘빅데이터’를 내세웠습니다. 하루 평균 500억 건에 이르는 대규모 접속 데이터를 분석하여 실시간으로 모니터링 하겠다는 것이었는데요.

현재 상황을 모니터링하고 장애를 발견하는 것에서 더 나아가 다양한 장애 상황의 패턴을 학습하여 이상패턴을 미리 감지하는 도구가 도입되기도 했습니다. 이에 대해서는 ‘IT 인프라장애, 빅데이터 분석으로 미리 예측할 수 있다’편에서 상세하게 소개한 바 있습니다.

  • 관련 글: IT 인프라 장애, 빅데이터 분석으로 미리 예측할 수 있다 (http://blog.lgcns.com/797)

이러한 노력에도 불구하고 서비스가 고도화 되어감에 따라 장애의 양상도 점점 다양해지고 있습니다. 인프라 장비의 사양이 높아지면서 장비에 들어가는 OS도 복잡해져 이로 인한 OS 버그도 증가하고 있고, 외부로부터의 공격 방식도 진화하고 있기 때문입니다.

충분한 대비에도 불구하고 장애가 발생했다면, 이제 중요한 것은 1분 1초라도 빨리 장애의 원인을 파악하고 서비스를 정상화하는 것입니다. 점점 다양해지는 장애 원인을 파악하기 위해 빅데이터 기반의 로그 분석 솔루션을 활용하면 빠르게 대응할 수 있는데요.

다음에서는 LG CNS의 로그 분석 솔루션 SmartLAP의 특징과 실제 활용사례를 통해 솔루션 활용 방법에 대해 알아보겠습니다.

빅데이터 기반의 로그 분석 솔루션 SmartLAP

l SmartLAP 검색 화면의 다양한 기능 (출처: SmartLAP 소개 자료)

SmartLAP은 하둡(Hadoop) 기반의 분산 아키텍처로 설계되어 낮은 비용으로 높은 성능을 낼 수 있는 통합 로그 분석 솔루션입니다.

Scale-Out 확장 구조로 노드 추가 시 성능을 선형적으로 개선할 수 있으며 데이터의 수집, 저장, 분석, 모니터링을 하나의 플랫폼으로 처리할 수 있다는 장점이 있습니다. 분산 병렬 처리를 바탕으로 하여 로그 데이터의 양이 증가해도 높은 검색 성능을 유지할 수 있습니다.

l 분산 병렬 처리를 통해 데이터 용량이 성능에 미치는 영향을 줄일 수 있다 (출처: SmartLAP 소개 자료)

웹 화면의 GUI(Graphical User Interface)를 통해 손쉽게 분석 가능한 환경을 구축할 수 있습니다. 실제 분석도 GUI 기반으로 신속하게 할 수 있는 사용자 친화적인 인터페이스를 제공합니다. 리포트 화면에서는 다양한 차트와 BI(Business Intelligence) 리포트를 제공하여 고객 관점의 리포트를 손쉽게 작성할 수 있습니다.

l SmartLAP 리포트 화면 (출처: SmartLAP 소개 자료)

로그의 수집에서 분석까지 과정은 ‘보안로그, 통합하면 패턴이 보인다!’에서 상세하게 설명한 적이 있는데요. 전체 과정을 간략하게 도식화 하여 보았습니다.

  • 관련 글: 보안로그, 통합하면 패턴이 보인다! (http://blog.lgcns.com/823)
l SmartLAP을 통한 로그 데이터 처리 과정 (출처: SmartLAP 소개 자료)

네트워크 장애 대응에 SmartLAP 활용 사례

소개할 사례는 NMS(Network Monitoring System)와 SmartLAP을 연계하여 대규모로 발생하는 시스템의 다양한 로그를 통합하고 빠르게 분석•대응하여 품질을 관리할 수 있는 기반을 마련한 예시입니다.

l 출처: SmartLAP 소개 자료

네트워크 관리자들은 VPN(Virtual Private Network), DNS(Domain Name System), CDN(Content Delivery Network), 방화벽, 무선랜 등의 네트워크 장비를 모니터링 하기 위해 NMS 제품을 사용합니다.

NMS를 통해 전체 네트워크 장비에 대한 중앙 감시 체제를 구축하여 네트워크를 컨트롤하고 모니터링 하는 것이지요. 네트워크의 비정상적인 상태를 인지하는 것은 NMS의 중요한 역할 중 하나인데요. NMS와 SmartLAP을 연계하여 다양한 장비에서 발생하는 대용량의 로그 데이터를 SmartLAP에서 수집하면, NMS의 임계치 모니터링만으로는 파악하기 어려운 문제를 Smart LAP이 보완해 줄 수 있습니다.

다양한 장비에서 발생한 시스템 로그는 수집 단계에서 로그타입 정의를 통해 로그 분석의 기반을 마련하게 됩니다. 로그타입을 잘 정의해 놓으면 실제 분석 시 사전에 미처 생각하지 못했던 시나리오도 도출할 수 있는데요. 아래 그림은 CDN 장비에서 발생하는 로그의 로그타입을 정의하는 예시입니다. 이처럼 분석이 수월하도록 로그타입을 정의해 놓으면 장애 상황에서 신속하게 로그를 분석할 수 있습니다.

l CDN 로그의 로그타입 정의

운영 중인 서비스에서 새롭게 반영한 소스에 문제가 있다거나 배포가 잘못된 경우, 특정 에러가 짧은 시간 내에 급증하게 되는데요. 이 때 SmartLAP의 검색•데이터 분포 조회 화면을 통해 CDN 로그로부터 쉽게 해당 에러와 연관된 URL을 검출할 수 있습니다.

이러한 에러 패턴을 검출하는 쿼리를 주기적으로 실행하도록 등록해두면 에러 급증 시에 알림을 발생시킬 수도 있으며, 이를 통해 장애 대응을 부분적으로 자동화할 수도 있습니다.

l 검색 화면을 통해 특정 에러 발생 시 연관 URL을 검출할 수 있다 (출처: SmartLAP 개발환경)

다음은 DNS 로그를 분석 대상으로 활용한 예시입니다. 특정 도메인에 대해 과다한 트래픽이 발생하는 것은 네트워크 장비의 대표적인 이상 패턴입니다. 주로 DDOS 등 외부로부터 공격에 의해 이러한 증상이 발생하는데요. NMS에서 이처럼 과다한 트래픽으로 이상패턴이 탐지되었다면 그 다음으로 할 일은 무엇일까요?

l 출처: www.citrusdev.com.ua

바로 DNS 로그를 분석하여 공격 IP를 알아내는 것입니다. 그런데 문제는 장비들이 남긴 로그의 양이 매우 방대하다는 것입니다. 네트워크 장비들은 초당 수 천에서 수 만 건의 시스템 로그를 발생시키는데 장비의 숫자가 많은 경우 로그의 양 또한 비례해서 증가합니다. 때문에 기존에는 마땅한 로그 분석 방안 없어서 L4장비의 Session 임계치로만 모니터링 하고 있었고, 엑셀 등 기존의 도구로는 문제가 되는 기간의 로그를 한 번에 분석하는 것이 거의 불가능하였습니다.

그래서 로그 수작업 분석에 많은 시간과 노력이 소모되었는데요. 이러한 문제는 SmartLAP을 연계하여 장비에서 발생하는 로그를 별도로 수집하고 관리함으로써 개선될 수 있습니다.

또한 대용량의 로그를 실시간으로 저장하고 인덱싱하여 언제든지 특정 기간의 로그를 빠르게 검색할 수 있는 기반을 마련하였습니다. 그 결과, 과다 트래픽 발생 상황 시에 SmartLAP 검색 화면을 통해 즉각 IP와 포트 등 필요한 정보를 검출할 수 있습니다.

아래 그림은 DNS 로그에 나타난 공격패턴 사례인데요. 로그 사례를 살펴보면 특정 PC(165.111.xxx.xxx)가 특정 도메인 서버(187.xxx.xxx.xxx)를 공격하고 있다는 것을 쉽게 분석할 수 있습니다.

l DNS 로그에 나타난 공격 패턴 (출처: SmartLAP 소개 자료)

또한 다음과 같은 대시 보드 화면을 통해 즉각적으로 문제를 파악하고 분석할 수 있습니다.

l SmartLAP 에서 방화벽 소스 IP 차트를 대시보드로 구성한 예시 (출처: SmartLAP 소개 자료)

그 밖에도 VPN 로그의 사용자 분석으로 장기 미사용 ID를 추려내어 보안을 강화하는 등 다양한 목적으로 로그 분석 솔루션을 활용할 수 있습니다. 실제로 LG CNS 네트워크 장비의 실시간 장애감지로 활용되고 있습니다.

시스템 로그의 새로운 가치를 찾기 바라며

지금도 기업 내 시스템들에서 로그와 같은 비정형 데이터들을 대량으로 쏟아내고 있으나, 대부분 무시되거나 활용도가 미미하여 버려지는 것이 현실입니다.

앞으로는 많은 기업들에서 로그의 가치를 인지하고 앞선 사례와 같이 실시간 빅데이터 로그 분석을 통해 의미 있는 인사이트를 얻으실 수 있기를 기대합니다.

글 l LG CNS 빅데이터사업담당

[혁신의 시작, 빅데이터 활용 연재 현황]

[1편] SRA와 함께라면 당신도 데이터 분석 전문가!
[2편] 빅데이터로 실시간 장애감지 및 분석까지!
[3편] 금융 정보계에 HIA 도입의 필요성
[4-1편] 빅데이터를 친구로 만드는 첫 걸음, 바라보는 관점 바꾸기 ①
[4-2편] 빅데이터를 친구로 만드는 첫 걸음, 바라보는 관점 바꾸기 ②
[5편] 빅데이터 시대, 자연어 기반의 빠른 검색이 온다
[6편] 하둡 기반 데이터 웨어하우스 모델링
[7-1편] 빅데이터 시각화 분석 ①
[7-2편] 빅데이터 시각화 분석 ②
[8편] 소셜 빅데이터 분석을 통해 신(新)소비 트렌드를 읽다
[9-1편] 고객 시선 강탈의 중요 요소 ‘빅데이터 추천 시스템’ ①
[9-2편] 고객 시선 강탈의 중요 요소 ‘빅데이터 추천 시스템’ ②

챗봇과 대화를 할 수 있어요