클라우드 연재 이번 시간에는 AWS를 활용하여 구축된 시스템 운영서비스 사례를 중심으로 소개해 드리려고 합니다.
Cloud 환경에서 운영 서비스
운영 서비스의 중요한 활동인 용량관리, 장애대응, 변경관리, 구성관리를 중심으로 클라우드 시스템(클라우드를 활용하여 구축한 시스템)의 운영 서비스와 기존의 On-Promise 방식(H/W를 구매하고, 데이터 센터에 H/W를 설치한 후 Application을 개발하는 방식)의 운영 서비스를 비교하면서 어떤 차이점이 있는지 설명해 드리겠습니다.
(1) 용량 관리
클라우드는 기존의 On-premise와는 달리 자원의 할당과 회수가 유연합니다. On-promise 환경에서는 최대 부하를 고려하여 용량설계를 하고 거기에 맞춰 미리 구축을 해야 하지만 클라우드 환경에서는 필요한 경우에만 할당하고, 불필요할 경우에는 자원을 회수할 수 있습니다. 그렇기 때문에 비용과 성능 관점에서 최소한의 용량을 할당하고, Autoscale•VM Schedule 등의 방식으로 부하 시간에만 용량을 할당하도록 용량 관리를 하고 있습니다.
(2) 장애 대응
기존의 On-premise 환경에서는 시스템이 있는 데이터센터와 H/W까지 관리를 해야 합니다. 하지만 클라우드에서는 S/W 영역(Application, OS 등)만 관리하면 됩니다. 이런 부분은 장애 예방과 대응에 많은 변화를 주었습니다.
시스템에 장애 발생 시, 기존 환경에서는 H/W 문제일 경우 대체 자원을 찾는 작업부터 진행해야 할 경우가 있습니다. 하지만, 클라우드에서는 H/W의 경우 클라우드 내에 있는 자원을 사용하여 바로 복구할 수 있습니다. 그렇기 때문에 기존에 원인파악 후 H/W를 교체하는 서버 정상화 위주의 조치 방법에서 벗어나, 문제가 발생한 H/W를 바로 변경하여 서비스를 정상화 하는 대응 방식으로 변경되었습니다.
(3) 변경 관리
앞서 말한 것처럼 클라우드 서비스 업체(ex.AWS)가 H/W의 관리를 책임지기 때문에 운영자들은 변경관리에서 인프라 소프트웨어 레벨에 대한 변경작업에만 집중하면 됩니다. 구성 변경(아키텍처 변경, 리소스 추가 할당 등) 및 패치•업그레이드 같은 변경 작업에만 운영자들이 직접 수행하고 H/W의 변경은 Cloud 서비스 업체에서 수행하고 있습니다.
그렇다고 H/W 영역에서 변경작업이 없는 것은 아닙니다. 클라우드 서비스 업체에서 H/W 변경작업을 수행할 경우 H/W에 Downtime이 발생합니다. 그렇기 때문에 운영 시스템에 대해서는 H/W 변경작업으로 발생하는 Downtime이 서비스에 영향을 주지 않도록, 이중화 구성을 하여 Downtime으로 인한 서비스 중단을 방지하고 있습니다.
(4) 구성 관리
클라우드 서비스 업체에서는 관리하는 H/W 이외의 서비스 정보(운영 구분, 등급), 리소스 정보(CPU, MEM), OS 정보들을 제공하고 있습니다. 이런 정보들을 LG CNS는 ITSM 기반으로 운영 표준 및 프로세스가 반영된 ‘Catoz’라는 통합 운영 솔루션을 통해 자동으로 관리하고 있습니다. Catoz에 대해서는 아래에서 좀 더 자세하게 설명해 드리겠습니다.
Catoz(Cloud A to Z)
위의 내용처럼 클라우드는 특성상 인벤토리 현황이 가변적이라 기존의 인벤토리 관리 툴과는 다른 방식이 필요했습니다. 그래서 Catoz라는 통합 운영 솔루션을 개발•운영하게 되었습니다. 기존까지는 운영자가 수동으로 시스템에 대한 정보를 입력•관리해왔지만, 가변성이 높은 클라우드 환경에서 수동으로 입력하는 것은 한계가 있었습니다.
Catoz는 운영자가 별도로 입력할 필요 없이 AWS에서 직접 Raw Data를 가져와 API를 통해 시각적으로 사용자들이 보기 쉽게 만들어 줍니다. 이때 가져오는 Data를 통해 운영자는 구성 정보(단순한 시스템 사용 정보 이외에 계정, 성능, 보안까지도 제공) 및 변경 사항에 대한 이력을 추적하여 손쉽게 변경 이력을 확인할 수 있습니다.
지금부터는 Catoz의 기능에 대해 항목별로 소개해 드리겠습니다.
먼저, Dash Board에서는 구성•장애•변경•CSR•AWS Event에 대해 실시간으로 현황을 한눈에 볼 수 있게 되어 있습니다. 그리고 해당 항목을 클릭하면 항목별로 자세한 내용을 볼 수 있습니다.
My SSH KEY 항목에서는 개인의 서버 접속용 SSH KEY 정보를 볼 수 있습니다. SSH Key는 Catoz에서 CSR을 통해 자동으로 배포•관리 되고 있습니다. 사용자는 자기가 배포 받은 SSH Key를 해당 항목에서 확인할 수 있고, 그 SSH Key를 통해서만 서버에 접속할 수 있습니다.
Inventory Mgt 항목에서는 AWS와 연계한 실시간 자원 정보를 볼 수 있습니다. VM, EBS 같은 IaaS뿐만 아니라 RDS 같은 PaaS 영역에 대한 실시간 정보까지 볼 수 있습니다. 또한, 변경으로 인한 이력 역시 해당 항목에 저장되기 때문에, 변경 이력관리까지 확인할 수 있습니다. 네트워크 자원에 대한 관리는 별도로 Network-Inventory Mgt 항목으로 분리하여 관리하고 있습니다.
Changed Inventory는 변경 관리 항목으로 기간 내에 변경된 모든 사항에 대해 확인할 수 있습니다. AWS 상에서 자원의 변동이 발생하면, 그 변동 내역이 자동으로 기록되기 때문에 운영자가 변경내역•사유•상세작업계획•결과이력에 대한 정보를 입력 관리할 수 있습니다. 해당 항목 이외에도 Chagne Mgt에서 변경작업계획과 결과 상세이력을 추가로 입력 관리 하고 있습니다.
CSR Mgt는 CSR을 접수•처리하는 항목입니다. AWS 자체의 작업으로 인한 H/W 변경 이외의 모든 활동에 대해서는 CSR로 접수하여 고객 승인을 받은 후 처리하고 있습니다. 이 항목에서 SSH key CSR을 통해 SSH key 요청•승인 후 자동으로 배포까지 가능합니다.
Problem Mgt 에서는 운영 중에 발생하는 모든 문제(AWS Health Event 포함)에 대해 원인•결과를 기록해 이력 관리 및 해결방법을 찾는 데 이용하고 있습니다. Calendar는 업무 Calendar로 CSR, Change Mgt, Problem Mgt 같이 주요 업무에 대한 스케줄에 기록되어 일, 주, 월별로 주요 업무 및 변경사항에 대해 확인할 수 있습니다.
AWS Support에서는 AWS에 Case open한 내용 및 Trusted Advisor 기록을 AWS 콘솔 접속 없이도 확인할 수 있습니다.
Nagios Chart에서는 시스템의 성능•정보를 볼 수 있습니다. RI 항목에서는 현재 사용 중인 인스턴스 Type 별 수량과 RI 수량을 비교하여 얼마나 효율적으로 RI를 사용하고 있는지 현황•분석 관리를 할 수 있습니다.
IAM LIST에서는 AWS IAM에서 생성된 계정(Group, User, Policy, Key)에 대한 정보를 확인•관리할 수 있습니다. ISM은 LG CNS의 보안 점검 툴로 서버•WEB, WAS•DB에 대하여 보안 취약점을 점검, 해당 취약점에 대해 조치를 취하는 기능을 가지고 있습니다. ISM 항목에서는 이 ISM의 결과 및 취약점 조치 결과를 인스턴스 별로 정리•관리하고 있습니다.
AWS Billing Report
AWS의 장점을 잘 활용하기 위해서는 필요한 만큼 서비스를 사용하고, 사용한 만큼 지불하는 종량제 서비스의 경우, 회사에서는 투자계획을 세우고, 집행하는 기존의 방식과는 다르게 어떤 종류의 클라우드 자원을 사용하는지, 향후 사용할 자원의 종류와 양을 예측하고, 불필요한 클라우드 자원을 줄여나가는 활동이 중요합니다.
AWS Billing Report는 AWS에 대한 빌링 데이터를 분석하고 자원의 종류와 양을 파악하여 클라우드에 지출되는 비용 현황에 대한 가시성을 확보할 수 있도록 합니다. AWS Billing Report를 통해 클라우드 사용량에 대한 낭비 요소를 제거함과 동시에 비용의 적정성을 확인하고 효율적인 비용 지출이 가능하게 되며 IT 예산 수립에 필요한 인프라 비용을 정확하게 예측할 수 있습니다.
주요 기능으로 빌링 대시보드와 비용 분석 리포트를 제공합니다. 빌링 대시보드는 클라우드 비용 KPI에 대한 모니터링, 비용 추이 분석, 월별 사용료, 서비스별 사용료 Top 5, 비용변동 Top 5를 한눈에 식별할 수 있도록 하며, 비용 분석 리포트는 Resource 레벨의 사용량에 대한 상세 분석, Product 별 UsageType 별 Availability Zone 별 비용 분석, 고객이 정의한 User Tag 별 비용 분석, 사용료 Top 10, 월 단위•일 단위 사용료 상세 분석 기능을 제공합니다.
(1) 빌링 대시보드 주요 기능
- 총 사용료 추이: 최근 3개월간 총 사용료 Trend
- Product 사용료 Top5: 이번 달 Product별 사용료 Top5
- Product 사용료 Top5 추이: 최근 3개월간 Product별 사용료 Trend
- 빌링 데이터 다운로드 History: AWS로부터 빌링 데이터를 다운로드한 이력 정보
- Product 사용료 변동 Daily 금액 Top5: 2일전과 3일전의 사용료 변동폭을 비교하여 Top5와 변동금액을 표시 (증가, 감소에 상관없이 절대값이 큰 순서대로 표시)
- Product 사용료 변동 Daily 비교 Top5: Product 사용료 변동 Daily 금액 Top5의 2일전과 3일전의 사용료 금액 비교
(2) 비용 분석 리포트 주요 기능
- Cost Top 10: 특정 월의 사용료 순위 Top10
- Monthly Report: 월간 사용료 추이
- Daily Report: 일간 사용료 추이
- 정산 비용: 특정월의 정산 비용 조회
- 비용 데이터 다운로드: AWS 빌링 데이터 원본인 CSV 파일을 다운로드
지금까지 LG CNS의 클라우드 운영 솔루션 ‘Catoz’와 AWS Billing Report를 활용한 클라우드 운영 사례를 소개해 드렸습니다. LG CNS의 편리한 클라우드 운영 시스템과 함께 사업 성공의 동반자가 되어 드리겠습니다.
글 ㅣ LG CNS 인프라사업담당