본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

IT Trend

알파고는 옛말? 초거대 인공지능 ‘하이퍼스케일’이 온다

2021.09.29

인공지능은 빠르게 산업과 우리 생활에 파고들었습니다. 국내외 많은 기업이 인공지능을 개발하고 활용하면서 여러 서비스와 제품이 탄생했습니다. 실제로 인공지능은 과거 연구와 개발 수준에만 그쳤던 것과는 달리 사업화에 성공했고, 실제 활용 사례가 크게 늘었습니다. 하지만 인공지능이 마치 만능인 것처럼 활용되는 측면을 경계하는 목소리도 있습니다. 최근 몇 년간 일어난 인공지능 붐이 어디까지 이어질 것인지, 과연 인간의 지능을 뛰어넘는 인공지능이 탄생할지에 대해 의문도 제기됐습니다. 과연 인공지능의 미래는 어디로 갈 것인지에 대한 해답을 찾으려는 노력이 이어진 가운데 마침내 인공지능의 미래라고 할 수 있는 초거대, 하이퍼스케일 인공지능이 본격적으로 모습을 드러냈습니다.

하이퍼스케일 인공지능이란?

국내 언론에서 초거대 인공지능, 하이퍼스케일(HyperScale) 인공지능이라고 일컫는 인공지능은 대규모(Large Scale) 혹은 거대한(Massive) 인공지능이라고도 합니다. 일반적으로 하이퍼스케일은 인공지능이나 클라우드 등의 분야에서 컴퓨팅의 대규모 확장에 관한 모든 것을 의미합니다.

인공지능은 기본적으로 많은 데이터와 컴퓨팅 파워를 사용하지만, 하이퍼스케일 인공지능은 여기서 한 단계 더 나아가 기존 인공지능의 수백, 수천 배에 이르는 거대 규모로 움직입니다. 하이퍼스케일 인공지능은 대용량 데이터를 빠르게 처리할 수 있는 슈퍼컴퓨팅 인프라를 기반으로 효율을 크게 높인 차세대 인공지능입니다.

기존 인공지능이 데이터 분석과 학습을 통해 결과물을 내놓았다면, 하이퍼스케일 인공지능은 인간의 뇌와 더욱 유사하게 설계돼 마치 인간의 뇌처럼 스스로 생각하고 창작합니다. 다양한 산업 분야의 방대한 데이터를 학습하고 마치 인간처럼 자연스럽게 대화할 수 있습니다. 글을 쓰거나 프로그래밍도 스스로 하는 등 인공지능이 할 수 있는 영역의 범위를 크게 확장했습니다.

이런 작업이 가능한 이유는 인간의 뇌처럼 인공지능의 모습을 만들어가고 있기 때문입니다. 인간의 뇌는 뉴런 간 정보 전달의 통로인 시냅스가 존재합니다. 시냅스는 약 1,000조 개에 달하는데요. 최근 하이퍼스케일 인공지능의 새로운 길을 열었다는 평가를 받는 GPT-3는 시냅스와 비슷한 역할을 수행하는 인공지능의 파라미터(parameter, 매개변수)를 1,750억 개까지 늘렸습니다.

파라미터는 하이퍼스케일 인공지능의 성능을 좌우합니다. 파라미터 수를 크게 늘리면 인공지능의 처리 능력, 학습 능력이 비약적으로 발전합니다. 뛰어난 성능의 하이퍼스케일 인공지능은 모든 산업 분야에 활용이 가능해 반드시 확보해야 하는 차세대 인공지능 기술로 주목받고 있습니다.

 하이퍼스케일 인공지능 (출처: envato)   

GPT-3의 놀라운 발전

하이퍼스케일 인공지능의 대표적인 사례는 오픈AI가 개발한 ‘GPT(Generative Pre-Training)’ 모델 시리즈입니다. 딥러닝 기반의 대규모 언어 모델인 GPT는 2018년 첫 버전인 GPT-1에서 1억 1,700만개의 파라미터를 사용했습니다. 이어 선보인 GPT-2는 15억 개의 파라미터로 구성됐는데요. 가장 최근 공개된 GPT-3는 1,750억개의 파라미터에 달합니다. 3년 만에 1,000배 이상의 규모로 커졌습니다.

3,000억 개에 달하는 데이터 세트, 570GB의 텍스트와 대량의 파라미터로 만들어진 GPT-3는 사람과 채팅을 통해 질문에 답하는 등 대화를 하거나 스스로 문장을 만들어냅니다. 인간의 뇌를 흉내 낸 GPT–3의 신경망은 특정 단어가 입력되면 서로 다른 네트워크 매개변수를 기반으로 해당 단어와 유사성이 가장 높은 단어를 찾아냅니다.

파라미터를 늘리고 세부적인 파라미터 조정 등으로 GPT-3가 내놓은 결과물의 품질은 높습니다. 하지만 GPT-3는 여러 문제점을 안고 있기도 합니다. 아직 기존에 작성된 문서 수준에서 의미상으로 반복되는 답을 내놓거나 질문이나 문장이 긴 영역에서는 일관성을 잃기 시작합니다. GPT-3의 크기가 너무 커 모델이 예측을 생성하는 데 더 많은 시간이 걸립니다. 또한 모든 모델에 나타나는 문제점인 편향성도 존재합니다.

윤리적인 문제와 저작권 등 사회 통념과 연관된 이슈도 있습니다. 최근 GPT-3 기반 챗봇 서비스를 통해 세상을 떠난 연인을 챗봇으로 구현해 이야기한 사례가 있습니다. GPT-3 챗봇에 연인과의 대화 내용을 학습시켜 챗봇과 대화를 한 사례인데, 기술적인 문제보다는 GPT-3의 활용이 우리 삶에 다가올 문제에 대해 여러 논의가 오고 갔습니다.

GPT-3가 학습하는 데이터에 대한 저작권 문제도 있습니다. 저작권이 포함된 데이터 활용이 합당한지에 대한 논란도 있습니다. 대량의 컴퓨팅 파워를 필요로 하므로 자원과 환경 문제의 원인이 아니냐는 시각도 있습니다.

이러한 이슈를 뒤로하고 GPT-3는 하이퍼스케일 인공지능의 방향을 제시했습니다. GPT-3은 지금까지 주로 텍스트 기반의 학습이 이뤄졌습니다. 향후 이러한 거대 규모의 인공지능 언어 모델이 더욱더 빠른 학습과 정교한 결과물을 내놓기 위해서는 이미지, 오디오, 비디오 등과 같은 다양한 데이터에 대한 학습이 진행될 전망입니다.

오픈AI의 GPT-3 (출처: OpenAI)

하이퍼스케일 인공지능에 뛰어드는 기업들

오픈AI의 GPT-3와 같은 인공지능의 등장에 따라 구글, 마이크로소프트를 비롯한 많은 IT 기업 역시 거대 규모의 인공지능 구현에 집중하고 있습니다. 하이퍼스케일 인공지능의 핵심은 효율적 학습으로 학습 수준의 향상과 여러 변화에 빠르게 적응하는 것입니다. 특히 인간과 상호작용을 위해 인간의 언어와 정서 등을 이해하는 것이 필수입니다. 따라서 많은 기업은 인간의 언어를 이해하기 위한 인공지능 개발에 집중하고 있으며, 인간의 언어가 가장 많이 포함된 텍스트, 영상 데이터 등을 연구합니다.

구글은 인간의 언어를 더 잘 분석하고 이해할 수 있는 딥러닝 알고리즘을 개발하고 있습니다. 구글이 2019년에 공개한 BERT(Bidirectional Encoder Representations from Transformers, 버트)는 자연어 처리(NLP) 작업과 자연어를 이해하는 양방향 학습 모델을 통해 언어의 의미와 문맥을 더 잘 파악하는 인공지능 언어모델입니다. 버트는 구글의 인공지능 기술과 핵심 서비스인 검색을 크게 강화하는 효과를 가져왔습니다.

2021년에 구글은 MUM(Multitask Unified Model, 멀티태스킹 통합 모드)을 공개했는데요. MUM은 75개 이상의 언어로 동시에 학습된 언어 모델이며, 버트보다 1,000배 더 강력한 성능을 갖고 있습니다. 텍스트만 이해하는 것이 아니라 비디오, 사진 등 다양한 형식의 정보를 동시에 이해할 수 있는 멀티모달입니다. 지금까지 구글의 검색은 텍스트를 기반으로 이루어져 있고, 복잡한 질문에 대해서 결과를 얻기 위해서는 질문을 나누거나 만족할 만한 결과를 얻을 때까지 질문을 수정해야 했습니다.

단순한 질문이 아닌 여러 의미가 담겨 있는 복잡한 검색을 하면 이에 맞는 답변을 받을 수 없었습니다. 예를 들어 “지난 여름 휴가에 하늘색 원피스를 입었는데, 이번 여름 휴가는 검은색 원피스를 입어도 될까?”라고 검색하면 검색엔진은 제대로 동작하지 않습니다. 하지만 MUM은 이러한 질문을 ‘여름 휴가에 맞는 의상’, ‘계절에 적합한 원피스’, ‘원피스 의류 스타일’과 같이 여러 구조를 이해하고 정보를 찾을 수 있습니다.

구글 MUM (출처: Google)

구글의 최신 인공지능 모델은 ‘트랜스포머(Transformer)’라는 모델에 기반을 둡니다. 트랜스포머는 사실상의 언어 모델의 기반이 되었고, 기본적인 트랜스포머는 100억 개 안팎의 파라미터를 갖고 있습니다. 트랜스포머는 앞서 살펴봤던 오픈AI의 GPT-1의 기초가 됐습니다.

GPT-3는 파라미터를 크게 늘려 하이퍼스케일 인공지능으로 발전한 것입니다. 하이퍼스케일 인공지능, 특히 언어 관련 인공지능의 기반은 트랜스포머에서 시작됩니다. 트랜스포머는 ‘셀프어텐션'(Self-Attention)이라는 방식을 사용합니다. 직렬처리 방식의 RNN(Recurrent Neural Network, 순환신경망)이 아닌 병렬처리를 통한 연산속도 향상을 위해 병렬 처리를 합니다. 인공지능은 주어진 단어, 문장을 다른 대상과 빠르게 비교합니다. 문장 전체를 병렬구조로 만들어 광범위한 영역의 단어와의 유사성을 찾습니다. 유사성의 범위가 넓어진 만큼 언어 이해 능력이 높아집니다.

최근 구글은 스위치 트랜스포머 관련 ‘스위치 트랜스포머: 단순하고 효율적인 희소성을 사용한 조(兆) 단위 파라미터 모델 확장’이라는 논문을 통해 1조 6,000억 개의 파라미터를 사용하는 모델을 제시했습니다. 거대 ‘조 단위’ 파라미터 모델의 등장입니다.

 트랜스포머 모델 구조 (출처: ‘Attention Is All You Need’ by Vaswani et al)

조 단위 파라미터를 활용한 하이퍼스케일 인공지능은 이제 각 기업의 전장이 될 전망입니다. 마이크로소프트는 오픈AI와 함께 슈퍼 컴퓨터를 개발했습니다. 두 기업에 따르면 슈퍼컴퓨터는 CPU 코어 285,000개, GPU 10,000개, GPU 서버당 네트워크 연결 속도가 초당 400기가비트 이상인 시스템으로 구성돼 있습니다. 마이크로소프트는 이미 2020년 170억 개의 매개변수가 있는 튜링(Turing) 자연어 생성(Turing-NLG) 모델을 개발했습니다. 마이크로소프트는 GPT-3를 활용한 개발자 프로그램을 만드는 등 관련 개발에 집중하고 있습니다.

페이스북은 다양한 지식과 감정을 주제로 대화를 나눌 수 있는 챗봇 시스템인 블렌더봇(BlenderBot) 2.0을 개발했습니다. 블렌더봇에는 최신 정보를 습득하는 모델이 포함돼 있습니다. GPT-3와 같은 모델은 새로운 정보를 불러오지 못하고 모델 생성 당시 학습했던 정보 수준에 머물러 있는 한계가 존재합니다. 페이스북은 검색 증강 생성(Retrieval Augmented Generation) 모델을 통해 획득한 정보는 물론 인터넷 검색 정보를 업데이트하는 특징이 있습니다.

중국 화웨이는 최대 2,000억 개의 매개변수가 포함된 대규모 자연어처리(NLP) 모델인 ‘판구 알파(PanGu Alpha)’를 개발해 공개했습니다. 화웨이는 각각 26억 개, 130억 개, 2,000억 개 매개변수가 적용된 세 가지 모델을 개발해 학습했다는 논문을 공개했습니다.

국내 기업들도 하이퍼스케일 인공지능 개발에 뛰어들었습니다. 네이버는 ‘하이퍼클로바’라는 이름의 인공지능에 2040억 개 파라미터를 활용한다고 밝혔습니다. LG그룹은 올해 하반기까지 6000억 개 파라미터, 내년 상반기까지 1조 개가 넘는 파라미터를 갖춘 하이퍼스케일 인공지능을 개발하겠다는 계획을 세웠습니다. KT도 한국전자통신연구원(ETRI), 카이스트 등과 함께 초거대 AI의 기반이 되는 ‘극대용량 AI 모델’ 개발을 추진하고 있습니다.

네이버 ‘하이퍼 클로바’ (출처: 네이버)

인공지능의 미래가 될까?

하이퍼스케일 인공지능은 과연 인공지능의 미래가 될까요? 하이퍼스케일 인공지능 경쟁에서 언뜻 파라미터 수 경쟁이 일어나는 것처럼 보입니다. 파라미터 수도 중요하지만, 규모의 싸움을 넘어 최적화와 다양성 경쟁이 될 가능성이 높습니다. 또한 생태계 주도권 확보를 위한 움직임이 더욱 중요해질 것입니다.

오픈AI는 올해 초 GPT-3를 활용해 제시한 문장에 따라 그림을 그릴 수 있는 인공지능 모델 인 ‘달리’를 선보였습니다. 달리에 사용한 파라미터 수는 120억 개로 모델에 적합한 규모의 파라미터만 활용했습니다. 최대한 많은 파라미터를 활용하는 것보다 연산 속도와 데이터 규모를 고려해 최적의 결과를 낼 수 있는 모델 개발이 중요합니다.

하이퍼스케일 인공지능 개발은 결국 모델을 개발하고 학습시키는 과정에서 막대한 비용이 발생합니다. 스타트업이나 작은 규모의 기업이 감당할 수 있는 수준이 아닙니다. 또한 이렇게 개발된 인공지능 모델을 오픈소스화, 표준화 등을 통해 하나의 기준을 만들기 시작하면 선도적인 인공지능 모델을 중심으로 미래 인공지능 생태계가 재편될 가능성이 높습니다.

오픈AI가 GPT-3를 개발한 이후 GPT-3를 활용한 챗봇 등 수백 개의 다양한 서비스가 생겨나면서 시장의 주도권을 확보하기 시작했습니다. 대형 IT 기업들 대부분이 미래의 인공지능 생태계를 주도하기 위한 하이퍼스케일 인공지능 개발에 집중하는 이유입니다. 이러한 경쟁 속에 인간의 언어를 자연스럽게 이해하고 현재의 인공지능 수준에서 한 단계 더 높은 상호작용이 가능한 인공지능의 시대가 다가오고 있습니다.

글 ㅣ 윤준탁 ㅣ  IT 저널리스트

챗봇과 대화를 할 수 있어요