본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

솔루션

‘데이터브릭스’라 쓰고, 오픈소스계의 ‘슈퍼스타’라고 읽는다

2021.05.03

오랜만에 오픈소스 업계에 초대형 기업이 나타났습니다. 주인공은 미국의 데이터 통합 플랫폼 스타트업인 데이터브릭스(Databricks)입니다. 데이터 분석 기술로 성장 중인 이 기업은 19억 달러(한화 약 2조 원) 규모의 투자를 유치하며 승승장구 중입니다. 기업가치 평가액은 무려 280억 달러(한화 약 31조 원). 올해 상장할 거란 소식이 더해지면서 금융계에서도 주목을 받고 있습니다. 데이터브릭스는 기술력 외에도 오픈소스 기업의 약점인 수익 창출 부분에서 새로운 방향을 제시했다는 평을 받습니다. 이번 글에서 오픈소스 기업 관점에서 데이터브릭스의 저력을 살펴보겠습니다.

데이터브릭스 로고

스파크의 시대를 연 데이터브릭스

빅데이터 분야는 대형 기업부터 작은 오픈소스 프로젝트까지 다양한 기술이 참여하는 생태계입니다. 그중 오픈소스 분야에서 두각을 보인 기술은 단연 ‘하둡(Hadoop)’입니다. 그리고 그런 하둡과 함께 인기를 끄는 기술이 ‘아파치 스파크(Apache Spark)’입니다.

기본적으로 하둡은 대용량 데이터를 분산 처리할 때 쓰는 기술입니다. 특히 배치(Batch)를 처리할 때 많이 쓰이는데, 배치 처리는 데이터를 일정 기간 쌓아 놓고 한 번에 분석하는 작업을 말합니다. 하루 동안 일어난 은행 거래액을 새벽에 한 번 정산하는 과정이 배치 처리의 대표적인 예입니다. 그와 반대되는 개념이 스트리밍 처리입니다. 공장 기계에서 데이터를 실시간으로 수집하고 오류와 같은 이상 여부를 분석하는 기술을 구현했다면 스트리밍 처리를 했다고 볼 수 있습니다. 아파치 스파크는 후자에서 말한 상황과 같이 끊임없이 들어오는 데이터를 실시간으로 분석할 때 쓰는 기술입니다.

하둡과 스파크는 서로 단점을 보완하며 사용되고 있습니다. 아파치 스파크는 속도가 큰 장점으로 여겨집니다. 스파크가 하둡보다 최대 100배 빠르다는 실험 결과도 있습니다. 최근 인공지능(AI) 기술과 사물인터넷(IoT), 동영상, 웹 데이터 등 실시간 데이터들을 결합해 새로운 서비스를 만들려는 노력이 많아지면서 스파크와 비슷한 데이터 분석 기술이 각광받고 있습니다.

빅데이터 관련 오픈소스 프레임워크 기술들 (출처: https://mattturck.com/data2020/)

데이터브릭스는 아파치 스파크 기술로 성장했습니다. 스파크라는 기술은 UC버클리대학 내 빅데이터 연구 조직인 AMP랩에서 처음 탄생했습니다. 해당 연구실에서 스파크 기술을 개발하던 교수와 박사과정 연구원들은 스파크의 가치가 커질 것으로 예상하고, 2013년에 데이터브릭스를 공동 설립하게 됩니다. 실제로 설립 이후 고객이 꾸준히 늘었으며, 2020년 기준 연 매출이 4억 2500만 달러(한화 약 4740억 원)을 달성했습니다.

데이터브릭스의 서비스는 대규모 데이터를 보다 손쉽게 가져오고 이를 인공지능과 결합해 분석할 수 있도록 도와줍니다. 예를 들어 리제너론(Regeneron)이란 기업은 데이터브릭스의 분석 기술을 활용해 대규모 유전정보와 환자정보를 분석합니다. 이를 통해 특정 질병을 치료할 수 있는 유전자 정보를 찾아내고 이에 맞는 약을 개발하고 있습니다. 석유기업 쉘(Shell)은 데이터브릭스 기술로 센서 데이터 2억 개를 분석해 고장 여부를 미리 예측하는 기술을 구현했습니다. 한 병원은 코로나 사태 이후 응급실 사진을 실시간으로 분석해 응급 환자 효율적으로 배치하는 기술을 만들었는데, 그 과정에서 데이터브릭스 기술을 이용했습니다.

데이터브릭스 서비스 예시 (출처: 공식홈페이지)

데이터브릭스의 핵심 오픈소스 기술들

데이터브릭스 기술의 핵심에는 오픈소스가 있습니다. 알리 고드시 데이터브릭스 CEO는 회사 설립 초기부터 오픈소스 기술을 통해 기업을 빨리 성장시킬 수 있을 거라고 확신했다고 합니다. 오픈소스 커뮤니티로 모인 사용자들이 데이터브릭스의 기술을 지지해주고 적극적으로 홍보해주는 것을 목격했기 때문입니다. 그런 가치 아래 데이터브릭스는 아래와 같은 핵심 오픈소스 기술 5개를 직접 개발하고 있습니다.

가장 먼저 위에서 언급한 아파치 스파크가 있습니다. 2009년에 처음 아파치 스파크가 출시된 이후 1200명이 넘는 개발자가 기술을 기여해주었으며, 현재 300개가 넘는 기업에서 이를 적극 활용하고 있습니다. 처음에는 UC버클리대에서 관리했지만 2013년부터 아파치 재단이 인수받아 운영하고 있습니다.

데이터브릭스가 투자하고 있는 오픈소스 기술들 (출처: 공식 홈페이지)

두 번째로 델타 레이크(Delta Lake)라는 데이터 레이크 관련 프로젝트가 있습니다. 데이터 무결성을 보장할 때 필요한 기술이나, 대규모 메타 데이터들을 관리하는 기술, 실시간 데이터를 기존 저장된 데이터와 통합해주는 기능 등을 개발하고 있습니다.

엠엘플로우(MLflow)는 머신러닝 개발과 관리를 도와주는 도구입니다. 머신러닝 프로젝트를 운영 하고 배포할 때 필요한 전반적인 기능을 제공하는데요. 여러 통계와 모델을 추적하고, 결과를 비교하고 협업할 수 있는 기능을 지원하고 있습니다.

엠엘플로우 기술 예시 (출처: 공식 홈페이지)

코알라스(Kolas)는 데이터과학자들이 많이 쓰는 파이썬 라이브러리인 판다스(pandas)를 아파치 스파크 위에서 구현할 수 있게 돕는 기술입니다. 판다스는 대규모 데이터를 처리할 때 속도가 느려지는 불편함이 있었는데요. 코알라스는 이를 해결해 빠르게 대량의 데이터를 분석할 수 있는 환경을 마련해줍니다. 판다스와 비슷한 코드 구조를 그대로 사용하면서 내부 엔진으론 스파크를 쓸 수 있는 장점이 있습니다.

마지막으로 리대쉬(Redash)는 2020년에 데이터브릭스가 인수한 기업입니다. 리대쉬는 SQL 분석 기술을 개발하면서 특히 시각화 기능에 특화된 오픈소스 프로젝트를 운영해왔습니다. 데이터브릭스에 인수된 이후 시각화 및 협업 기능을 개발하고 있습니다.

리대쉬 기술 예시 (사진 출처: https://databricks.com/blog/2020/06/24/welcoming-redash-to-databricks.html )

데이터브릭스가 추구하는 수익화 전략은?

데이터브릭스는 다른 오픈소스 기업과 구별되는 몇 가지 특징이 있습니다. 먼저 대학 연구진이 시작한 기업인 만큼 교육 프로그램이 잘 발달 돼있습니다. 코세라 같은 MOOC(온라인공개강좌) 플랫폼을 통해 직접 데이터 분석 기술 관련 강의를 제공합니다. 또한 자체적으로 ‘데이터브릭스 아카데미(Databricks Academy)’를 운영해서 독학 버전의 온라인 교육이나 강사 지도하에 배우는 온라인 과외 서비스를 운영하기도 합니다. 또한 ‘스파크 컨퍼런스’를 개최해 오픈소스 활용사례를 적극 공유하고 있습니다.

두 번째로 눈에 띄는 기업용 서비스 정책을 가지고 있습니다. 보통 오픈소스 기업들은 기업용 서비스를 별도로 만들어 수익을 냅니다. 그리고 그 기업용 서비스는 유지보수 서비스나 별도의 추가 기능을 덧붙이는 형태로 제공됩니다. 하지만 데이터브릭스의 유료 서비스는 조금 다릅니다. 고객이 데이터브릭스 서비스를 이용하고자 한다면 먼저 아마존웹서비스(AWS), 마이크로소프트(MS) 애저, 구글 클라우드 중 어떤 인프라를 이용할지 선택해야 합니다. 그리고 데이터브릭스 서비스는 선택한 클라우드 자원 위에서 돌아갑니다. 마치 SaaS(Software as a Service)를 이용하듯 별다른 설치 없이 바로 이용이 가능한 셈입니다. 비용은 ‘데이터브릭스 유닛(DBU)’라는 단위를 사용해 사용자가 데이터브릭스 자원을 사용한 기준으로 시간당 후불로 책정합니다. 이때 고객은 클라우드 기업에 직접 비용을 지불하며 데이터브릭스는 이후 해당 클라우드 기업으로부터 수익을 정산 받습니다.

데이터브릭스 가격 체계. 외부 클라우드 기술을 이용해 사용한자원만큼 내는 구조를 만들었다 (출처: 공식 홈페이지)

결과적으로 클라우드 기업과 데이터브릭스는 서로 고객을 공유하며 수익도 나눠 갖고 있습니다. 이런 특이한 환경 덕에 아마존웹서비스, 캐피털G(구글의 모회사인 알파벳의 산하 벤처캐피털 기관), 마이크로소프트가 직접 데이터브릭스에 투자하기도 했습니다.

알리 고드시는 이미 오래전부터 클라우드에 모든 데이터가 몰리고 있는 상황을 지켜보면서 데이터 분석 도구 역시 클라우드 안으로 들어갈 것으로 예상했다고 하는데요. 그런 흐름에 맞춰 데이터브릭스는 핵심 기능 개발에 집중하고 그 외 필요한 인프라 자원은 대형 클라우드 기업에게 맡기는 전략으로 기업 경쟁력을 강화했습니다. 덕분에 고객은 대형 클라우드라는 플랫폼을 통해 데이터브릭스 제품을 더 쉽게 접할 수 있었고, 데이터브릭스는 그만큼 수익을 창출할 수 있는 기회를 늘릴 수 있었습니다.

마지막으로 데이터브릭스는 ‘데이터 레이크하우스(Data Lakehouse)’라는 기술 방향을 이끄는 데도 큰 역할을 하고 있습니다. 데이터 레이크하우스는 데이터 레이크(Data Lake)와 데이터 웨어하우스(Data Warehouse)의 장점을 합치려는 기술 구조입니다. 데이터 레이크는 활용 목적을 정하지 않고, 데이터를 일단 원시형태 그대로 저장하는 구조를 지향합니다. 데이터 웨어하우스에서는 데이터를 특정 목적에 맞게 미리 정제하고 관리해 저장하는 구조를 가집니다. 즉 데이터 레이크하우스는 델타 레이크 같은 기술을 활용해 데이터를 어느 정도 구조화할 수 있게 관리하게 쉽게 만들면서 스트리밍 처리도 가능합니다. 저렴하게 데이터를 보관하는 기술을 추구하는 것입니다. 데이터브릭스의 성장으로 업계에선 덩달아 데이터 레이크하우스 같은 새로운 기술 패러다임에 대한 관심이 높아지고 있습니다. 앞으로도 데이터브릭스의 행보가 기대됩니다.

[출처]

[1] Resilience and Vibrancy: The 2020 Data & AI Landscape, https://mattturck.com/data2020/
[2] https://spark.apache.org/
[3] Databricks raises $1B at $28B valuation as it reaches $425M ARR, Techcrunch, 2021년2월, https://techcrunch.com/2021/02/01/databricks-raises-1b-at-28b-valuation-as-it-reaches-425m-arr/
[4] How Databricks CEO And Cofounder Ali Ghodsi Bet Big On The Cloud To Build A $28B Company, Forbes, 2021년4월, https://www.forbes.com/sites/glennsolomon/2021/04/08/how-databricks-ceo-and-co-founder-ali-ghodsi-bet-big-on-the-cloud-to-build-a-28b-company/
[5] https://docs.delta.io/latest/delta-intro.html
[6] Data Science with Databricks for Data Analysts Specialization, https://www.coursera.org/specializations/data-science-with-databricks-for-data-analysts
[7] Databricks Raises $1 Billion Series G Investment at $28 Billion Valuation, 2021년2월, https://databricks.com/company/newsroom/press-releases/databricks-raises-1-billion-series-g-investment-at-28-billion-valuation
[8] Databricks Dismisses Open Source Criticism of Amazon , The Information 2019년12월, https://www.theinformation.com/articles/databricks-dismisses-open-source-criticism-of-amazon

글 ㅣ 이지현 ㅣ 테크저널리스트 (j.lee.reporter@gmail.com)

챗봇과 대화를 할 수 있어요