생성형 AI 2라운드, 이번엔 멀티모달이다!

2023년은 ‘생성형 AI 돌풍의 해’라고 해도 과언이 아닙니다. 상반기에 오픈AI의 챗GPT를 필두로 마이크로소프트, 구글, 메타 등 미국 빅테크 기업들이 거대 언어 모델(LLM, Large Language Model)을 앞다퉈 공개했습니다. 국내에서도 LG, 네이버, SKT와 같은 기업들이 새 모델을 선보였는데요. 문장을 입력하면 자유자재로 답변하는 생성형 AI는 이제 전 산업으로 확산 중입니다.

하반기에는 전선의 양상이 달라질 것으로 보입니다. 미국 빅테크 기업들이 멀티모달(Multi Modal) 런칭을 준비하고 있기 때문인데요. 미국 IT 전문매체 디인포메이션에 따르면, 구글과 오픈AI는 연내에 멀티모달 AI 발표를 목표로 하고 있습니다. LLM이 입력한 프롬프트에 따라 문장만 생성하는 반면, 멀티모달 AI는 텍스트, 이미지, 음성, 영상 등 형태의 제약이 없는 것이 특징입니다. 예를 들어 사용자가 음식 이미지를 업로드하면 해당 식재료 관련 정보와 조리법을 생성하고, 숫자가 포함된 문서를 올리면 즉석에서 그래프나 도표를 보여주는 방식입니다.

주요 빅테크 기업들의 멀티모달 AI 미리 보기

1) 구글의 ‘제미니(Gemini)’ 출격 준비

구글은 멀티모달 엔진 제미니에 대한 개발을 마치고 일부 기업과 테스트를 진행 중인 것으로 알려졌습니다. 제미니는 인간 두뇌의 시냅스에 해당하는 파라미터 수가 약 1조 개에 달한다고 전해지는데요. 이는 오픈AI가 내놓은 최신 버전의 GPT-4 파라미터가 약 5,000억 개로 추산되는 것에 비해 두 배 더 큰 규모입니다. IT 업계에서는 제미니 프롬프트 창에 유튜브 영상 주소(URL)를 입력하면 자동으로 스크립트가 생성, 분석될 것으로 기대하고 있습니다.

일부 멀티모달 기술은 구글 검색엔진에 이미 탑재돼 있습니다. 예를 들어, 쇼핑 앱 사용자들이 옷, 신발, 장난감 등 수많은 상품 속에서 특정 색상의 상품만 빠르게 찾길 원한다면 어떻게 해야 할까요? 구글 버텍스 AI(Vertex AI, 구글의 생성형 AI 플랫폼) 도구를 활용하면 이 문제를 해결할 수 있습니다. 버텍스 AI 도구는 사진과 설명을 동시에 읽고 상품을 특별한 코드로 변환해 줍니다. 이 코드를 ‘임베딩’이라고 부르는데요. 빨간색 운동화만 검색하고 싶을 때에는 버텍스 AI가 빨간색 운동화의 코드(임베딩)를 찾아 가장 비슷한 상품을 빠르게 보여줍니다. 구글은 이러한 멀티모달 AI 기술이 비즈니스의 판도를 뒤바꿀 것으로 기대하고 있습니다.

[그림 1] 구글 버텍스 AI 도구를 활용해 개발한 멀티모달 AI 검색 (출처: 구글 클라우드 블로그)

실제로 구글 클라우드 개발자 카즈 사토는 구글 클라우드 블로그를 통해 일본 중고거래 플랫폼 업체 메루카리(Mercari)와의 협업 소식을 전했는데요. 580만 개에 달하는 상품 이미지를 메루카리에서 가져와 버텍스 AI 멀티모달 임베딩으로 전달하고, 다시 이를 추출해 버텍스 AI 벡터 검색에서 검색 인덱스를 구축한다는 내용입니다.

카즈 사토는 “판매자는 판매하려는 품목의 이미지를 업로드한 뒤 비슷한 색상, 비슷한 스타일의 비슷한 브랜드 상품을 찾아볼 수 있을 것”이라며 “이를 통해 상품 이름, 설명, 판매 가격 등을 비교해 정할 수 있다”고 설명했습니다.

2) 오픈AI, ‘챗GPT(ChatGPT)’와 ‘달리3(DALL·E 3)’에 이은 ‘GPT-비전(GPT-Vision)’ 공개

오픈AI도 반격에 나섰습니다. 오픈AI는 올 3월 GPT-4를 공개하며 멀티모달 AI의 초기 버전을 시연한 바 있습니다. 요리 이미지를 업로드하면 조리법을 생성하고 식재료를 분석해주는 모습을 공개했는데요. 해당 기능은 아직 상용화하지 않은 상태입니다.

IT 업계는 2023년 11월 6일 오픈AI가 미국 샌프란시스코에서 개최하는 ‘오픈AI 개발자 대회’에서 GPT-4에 GPT-비전을 접목한 모델을 공개할 것으로 전망하고 있습니다. IT 전문매체 디인포메이션은 “오픈AI가 그동안 준비해 온 GPT-비전으로 불리는 기술을 곧 공개할 것으로 보인다”며 “GPT-비전보다 더 강력한 프로젝트 ‘고비(Gobi)’도 주목된다”고 설명했습니다. 오픈AI는 LLM인 GPT-4와 이미지 AI인 달리를 각각 선보인 바 있으나, 고비는 처음부터 멀티모달 AI로 개발돼 LLM과 이미지 AI를 합친 것과는 차원이 다를 것이라는 평가가 나오고 있습니다.

오픈AI는 구글이 제미니를 오픈하기 전 달리3를 출시하고 이를 챗GPT에 통합한다는 계획도 발표했습니다. 챗GPT 프롬프트에 문장을 입력하면 달리3가 이를 챗GPT 내에서 이미지로 생성하는 서비스가 2023년 10월부터 유료 버전 ‘챗GPT 플러스’와 기업용 ‘챗GPT 엔터프라이즈’ 고객에게 제공될 예정입니다. 유료 버전 사용자에게만 달리3 결합 서비스를 공급해 유료 전환율을 높이는 동시에, 구글보다 먼저 해당 이슈를 선점하고자 하는 것이죠.

[그림 2] 이미지 분석 제공을 지원하지 않는 오픈AI의 챗GPT 플러스

3) LG의 초거대 멀티모달 AI, ‘엑사원(EXAONE) 2.0’

LG는 2023년 7월, 특허와 논문 등 약 4,500만 건의 전문 문헌과 3억 5,000만 장의 이미지를 학습한 초거대 멀티모달 AI ‘엑사원(Exaone) 2.0’을 공개했습니다. 엑사원은 언어와 이미지 간의 양방향 생성이 가능한 것이 특징입니다. 이미 엑사원 1.0으로 문장을 입력하면 그림을 생성하고, 그림을 업로드하면 설명을 해주는 기능을 선보인 바 있습니다.

진화하는 멀티모달 AI 기술과 빨라지는 산업 재편

사용자가 음성, 터치, 제스처를 활용해 자연스러운 방식으로 컴퓨터와 상호작용하게 하는 멀티모달 인터페이스에 대한 연구는 1970년대부터 진행돼 왔습니다. 제한된 음성 인식이 가능한 시스템도 이 시기에 등장했죠. 1990년대에는 드래곤이라는 기업이 받아쓰기 소프트웨어를 개발해 사용자가 컴퓨터와 대화할 수 있도록 지원했습니다. 2000년대 들어 애플이 아이폰 Siri를 선보였고, 마이크로소프트는 X박스에 제스처를 인식시키는 테스트를 진행했죠. 인공지능이 접목되기 시작한 건 2010년대입니다. 아마존 에코, 구글 홈 등 멀티모달 기반의 제품들이 출시되었고 현재는 생성형 AI와 접목해 그 영역을 확장하고 있습니다.

한편 다양한 데이터를 학습하는 멀티모달의 악용 가능성에 대한 우려도 제기되는데요. 특정 인물의 사진을 업로드해 분석을 요청하고, 이를 안면인식 AI를 해킹하는 데 사용하는 사례가 생길 수도 있습니다. 오픈AI도 이 같은 이유로 GPT-비전의 공개를 미뤄온 것으로 알려졌으나, 구글이 선수를 치려고 하자 다시 속도를 내기 시작한 것입니다.

IT 업계는 멀티모달 AI를 둘러싼 빅테크 기업들의 신경전을 인공지능 대결 2라운드로 보고 있습니다. 디인포메이션은 “검색엔진과 유튜브를 보유한 구글이 멀티모달을 내놓는다면 비즈니스 측면에서도 상당히 유리할 것으로 보인다”며 “AI 업계에선 이를 제 2의 아이폰 대 안드로이드폰 대결로 보고 있다”고 설명하기도 했는데요. 하반기 이후 멀티모달 기술이 급속도로 확산될 경우, 다른 기업이 진입할 틈도 없이 AI 생태계가 이원화될 수 있다는 염려도 나옵니다.

인공지능은 시장 전망이 밝은 산업입니다. 글로벌 시장조사 기관 포춘비즈니스인사이트에 따르면 글로벌 AI 시장 규모는 2022년 4,280억 달러에서 올해 5,153억 달러로 성장했으며, 2030년에는 2조 251억 달러로 커질 전망입니다. 멀티모달을 활용한 AI는 산업을 더욱 빠른 속도로 재편할 가능성이 큽니다. 분석 업체 ABI 리서치는 멀티모달 AI가 확산될 경우, 자율주행, 로봇, 스마트홈 분야에서 획기적인 변화가 일어날 것으로 예측했습니다. 로봇에 입력된 이미지, 영상이 분석돼 소비자가 이해하기 쉬운 텍스트로 전달될 것입니다. 이미 자율주행 업계에서는 이 같은 기술이 속속 도입되는 추세입니다.

글 ㅣ 이상덕 ㅣ 매일경제 실리콘밸리 특파원·<챗GPT 전쟁: 실리콘밸리는 지금 무엇을 준비하고 있는가> 저자

블로그

생성형 AI 2라운드, 이번엔 멀티모달이다!

관련 아티클