본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

IT 인프라 장애, 빅데이터 분석으로 미리 예측할 수 있다

2015.05.28

여러분은 7.7 디도스 공격, 기억하고 계신가요?

2009년 7월 7일, 주요 정부기관과 포털사이트, 은행사이트에 대하여 분산 서비스 거부 공격(DDoS, 디도스)이 일어나 관련 IT서비스가 일시적으로 마비된 사건이 발생하였는데요. 이 사건으로 500억원 이상의 피해를 입었다고 합니다. 이런 디도스 공격은 겉으로는 IT서비스를 마비시킨 것이지만, 실제로는 이것을 운영하는 인프라를 공격해 장애를 일으켰던 것입니다.

서버, 네트워크와 같은 인프라를 관리하는 데이터 센터에서는 장애가 발생하지 않도록 24시간, 365일 중단 없이 IT장비들의 상태를 모니터링하고, 문제가 생길 경우 즉각 조치하고 있는데요. 우리가 주변에서 자주 접할 수 있는 IT서비스들은 이러한 인프라 관제를 기반으로 운영되고 있죠. 이렇듯 시간 제약 없이 IT서비스를 이용하기 위해서는 효과적인 인프라 관제가 필수적이라고 할 수 있습니다.

최근 들어 인프라 관제에 빅데이터 분석이 접목되어, 인프라 장애 예측과 사전 대응에 이용되고 있는데요. IT업계에서는 이 분야를 ITOA(IT Operation Analytics, IT 운영 분석)라고 부르고 있습니다. 오늘은 빅데이터를 활용한 ITOA와 그 솔루션에 대해서 소개해 드리겠습니다.

IT인프라, 빅데이터와 만나다

지금까지 인프라 관제는 장애가 발생하면 그 원인을 찾아서 조치하는 ‘사후대응’에 초점이 맞춰져 있었는데요. 소수의 운영인원이 다수의 서버와 시스템을 관리하기 때문에 이런 방식으로는 장애에 미리 대응하기 어려웠습니다.

<ITOA 구성도>

반면에 ITOA는 인프라 운영과 관련하여 빅데이터 분석 기술을 통한 ‘장애 사전대응’에 초점을 맞추고 있는데요. 위의 ‘ITOA 구성도’를 보면서 기존 관제 방식과 ITOA를 비교해 보겠습니다.

기존 관제 방식은 사후 즉시 조치하는 것으로, 시스템 운영 대상 자원으로부터 인프라 성능지표 데이터를 수집한 후, 수집된 인프라 성능지표 값이 미리 설정된 임계치를 초과하는 경우 시스템 경보를 울려서 장애 조치를 취하게 됩니다.

ITOA는 사전 예방 조치를 하는 방식으로, 시스템 운영 대상 자원으로부터 수집된 인프라 성능지표 데이터를 기반으로 패턴분석을 수행하여, 앞으로 나타날 인프라 성능지표의 값과 패턴을 예측합니다. 이 예측 결과를 바탕으로 선감지 경보를 울려서 장애 발생 전에 예방 조치를 취하게 됩니다.

실제 ITOA에서는 서버로부터 CPU 사용량, 메모리 사용량, 동시접속자 수와 같은 인프라 성능지표 데이터를 수집하고, 수집된 인프라 성능지표 데이터에 빅데이터 분석을 적용하여 장애를 미리 예측하게 됩니다.

ITOA의 핵심, 예측과 패턴이다

빅데이터 분석을 활용한 ITOA는 크게 두 가지 방식으로 적용되는데요.

하나는 인프라 성능지표에 대한 예측값을 생성하여 활용하는 방법이고, 또 하나는 수집되는 성능지표에 대한 이상패턴 유무를 분석하는 방법입니다. 두 가지 방법 모두 빅데이터를 활용한 시계열 분석과 머신러닝(Machine Learning) 기법이 적용되고 있습니다.

<시계열 분석을 통한 인프라 성능지표 예측>

인프라 성능지표 예측의 경우, 시계열 분석을 통해 특정 시간에서의 성능지표 값을 미리 알아낼 수 있는데요. 이 예측값을 이용해 기존에 관제하고 있는 성능지표에 대한 임계치 도달 여부를 판단하고, 장애 발생이 예상되는 시점에 앞서 미리 필요한 조치를 취할 수 있습니다.

<성능지표의 이상패턴 탐지>

성능지표의 이상패턴 탐지란, 과거 정상일 때의 성능지표 패턴을 학습하여 앞으로 보여지는 성능지표 패턴이 정상 패턴인지 장애 관련 패턴인지를 분석하는 것인데요. 예를 들면 디도스 공격처럼 짧은 시간 동안 네트워크 트래픽이 급격하게 증가하는 경우, 이것을 평소와 다른 이상패턴으로 감지해 사전에 대응할 수 있도록 시스템 경보를 울립니다.

인프라 장애, ITOAS로 해결하다

앞서 말씀 드린 ITOA에 적용되는 두 가지 빅데이터 분석은 모두 성능지표 예측과 패턴 탐지에 기반을 두고 있는데요. 더 많은 종류의 데이터를 대상으로, 다양한 성능지표의 패턴을 학습하고 분석할수록 더 향상된 예측 결과를 기대할 수 있습니다.

실제 LG CNS 데이터센터에서는 이 빅데이터 분석 기법이 반영된 솔루션인 ITOAS(IT Operation Analytics Solution)가 적용되어, 600여 대 서버를 대상으로 5만개 이상의 성능지표에 대하여 예측과 패턴 분석을 수행하고 있는데요. ITOAS의 적용 결과 장애 요인 선조치로 안정적인 서비스를 운영할 수 있게 되었습니다.

<ITOAS 적용 전과 후의 비교>

지금까지 빅데이터를 활용한 인프라 장애 선감지와 ITOAS에 대하여 살펴보았습니다.

인프라를 관제하는 데이터센터에서는 우리 눈에 직접 보이지는 않지만, IT서비스가 중단 없이 운영될 수 있도록 지금 이 순간에도 장애 방지를 위해 노력하고 있는데요. 특히, 빅데이터 기반의 예측 분석을 적용하여 예전보다 더 효과적으로 장애를 예방할 수 있게 되었습니다.

앞으로 더 많은 인프라에 ITOAS가 적용되어 더욱 편리하게 IT서비스를 이용할 수 있기를 기대해 봅니다.

글 | LG CNS 빅데이터분석컨설팅팀

챗봇과 대화를 할 수 있어요