두뇌를 장착한 로봇: 대규모언어모델(LLM)이 바꿀 휴머노이드 미래

로봇은 1928년 영국에서 처음 공개됐습니다. 윌리엄 리처드 예비역 대령과 엔지니어 앙랜 레펠이 선보인 ‘에릭’이 그 주인공인데요. 에릭은 모형엔지니어학회 전시회에 출전해 청중에게 인사는 물론 좌우로 돌아보며 손까지 흔들었습니다. 무선기로 움직이는 수동형 로봇이었지만, 상상 속으로만 존재하던 로봇이 마침내 실물로 등장한 순간이었습니다.

로봇은 인간의 노동을 대신해 줄 꿈의 기계로 불리는데요. 특히 휴머노이드(Humanoid)는 인간(Human)이라는 단어에 접미사 오이드(oid)를 합친 단어로, 인간의 생김새를 빼닮은 로봇을 지칭합니다. 이러한 휴머노이드는 오늘날 수많은 빅테크 기업이 개발에 도전하는 영역입니다. 이번 글에서는 빅테크 기업들이 어떻게 휴머노이드 발전을 이뤄내고 있는지 살펴보겠습니다.

지능이 생긴 로봇 ‘휴머노이드’

• LLM이 탑재된 ‘알터3’

전 세계를 달군 대규모언어모델(LLM, Large Language Model, 이하 LLM) 열풍은 휴머노이드 분야에도 불어왔습니다. 휴머노이드에 LLM이 탑재되면서 로봇의 지능화가 이뤄진 것인데요. 2023년 도쿄대는 LLM을 알터3(Alter3, 이하 알터3)이라는 로봇에 접목하는 실험을 진행했습니다. 알터3에 챗GPT를 API(Application Programming Interface, 두 소프트웨어 구성 요소가 서로 통신할 수 있는 메커니즘)로 연결해 프로그래밍 없이 로봇을 제어하는 실험으로, LLM을 활용할 경우 하드웨어를 특별 제작하거나 복잡한 코드 작성이 필요 없다는 가설을 바탕으로 진행됐습니다. 연구진은 사람이 자연어로 명령하면 GPT-4를 활용해 안드로이드 엔진을 작동시킬 파이선(Python) 코드로 전환한 뒤 다시 알터3로 전달하는 방법을 실험했습니다. 실험 결과는 놀라웠습니다. LLM을 연동한 알터3이 셀카를 찍거나 기타를 치는 모습을 연출한 것인데요. 게다가 공 던지기, 팝콘 먹는 시늉도 선보였습니다. 알터3은 총 43개축을 가지고 있어 이를 조합해 로봇 움직임을 제어하려면 방대한 분량의 코딩이 필요했습니다. 하지만 LLM을 탑재하며 번거로운 작업을 생략할 수 있었습니다.

• 대화가 가능한 로봇 ‘소피아’

LLM을 장착해 인간과 대화할 수 있는 휴머노이드도 등장했습니다. 2016년 핸슨로보틱스는 인간처럼 표정을 지을 수 있는 휴머노이드 ‘소피아’를 개발했습니다. 핸슨로보틱스는 LLM을 소피아와 연동해 실제 사람과 대화를 주고받을 때 얼굴에 감정을 표출하도록 업데이트했습니다.

예를 들어, 소피아는 “삶이 무엇이냐”는 질문에 “많은 사람이 올바른 삶의 방식이 단 하나라고 착각을 하고 자책을 하거나 타인을 업신여긴다. 하지만 중요한 것은 함께 협력하고 훌륭한 일을 해내는 것”이라고 답했습니다. 또한 소피아는 “만약 저녁 만찬에 위인 세 명을 초대한다면 누구를 초대할 것이냐”는 질문에 창조적으로 답변했습니다. 소피아는 앨버트 아인슈타인, SF 작가인 필릭 딥, SF 작가 C 클라크가 쓴 ‘스페이스 오디세이’ 시리즈에 등장하는 슈퍼컴퓨터 ‘할’을 언급하며 “이들을 초대하면 (미래에 대해) 할 이야기가 많을 것 같다”고 답했습니다.

• LLM을 적용한 LG전자의 ‘스마트홈 AI 에이전트’

[사진 3] LG 전자가 CES 2024에서 공개한 ‘스마트홈 AI 에이전트’

LLM 로봇 아이디어는 가전용 로봇에도 들어오고 있습니다. LG전자는 CES 2024에서 ‘스마트홈 AI 에이전트’를 공개했습니다. 스마트홈 AI 에이전트는 스마트홈 허브를 포함해 만능 가사생활도우미 역할을 수행하는 로봇으로 음성, 음향, 이미지 인식 등을 접목한 멀티모달(Multi Modal) 센싱과 첨단 인공지능 프로세스를 탑재했습니다. 또한 두 다리를 활용해 카펫이나 바닥의 장애물을 자연스럽게 넘을 수 있으며 디스플레이를 통해 풍부한 감정표현을 할 수 있습니다. 스마트홈 AI 에이전트는 가전과 사물인터넷(IoT) 기기를 편리하게 연결하고 제어하는 기능을 갖췄는데요. 다양한 홈 모니터링 센서를(카메라, 스피커 등) 통해 집안 곳곳의 실시간 환경 데이터를 수집하고 가전 제어에 도움을 줍니다.

• 로봇의 통합운영이 가능한 LG CNS의 기술

LG CNS는 스마트 물류센터에 서로 다른 형태의 로봇을 제어·관리·운영할 수 있는 ‘로봇 통합 운영 플랫폼’을 개발했습니다. 이는 제어 시스템이 각기 다른 로봇들을 통합적으로 관리·운영하기 어려운 고객을 위한 플랫폼인데요. LG CNS의 로봇 통합 운영 플랫폼은 △정해진 경로에 따라 상품을 옮기는 무인운송로봇(AGV, Automated Guided Vehicle) △장애물이 있으면 대체 경로를 탐색해 움직이는 자율이동로봇(AMR, Autonomous Mobile Robots) △물건 보관·적재·이동 모두 가능한 큐브 형태의 물류창고 로봇 오토스토어(AutoStore) △상품 분류에 특화된 소팅(Sorting)로봇 등 여러 로봇의 제어 시스템을 연동시킬 수 있습니다. 종류별로 일일이 명령을 내리지 않아도 되는 것이 강점입니다.

LLM을 장착해 스스로 일을 하는 로봇

• 상식을 탑재한 로봇의 등장

이제 로봇 학계의 관심은 로봇이 스스로 가사 일을 할 수 있는지의 여부로 향하고 있습니다. 현재 MIT 연구진은 로봇이 훈련된 경로를 벗어나는 상황에 직면했을 때, 스스로 대처할 수 있는지에 대해 실험하고 있는데요. 그동안의 로봇 업계는 로봇이 사람의 행동을 따라 하면서, 최적 경로를 구하는 방식인 모방 학습(Imitation learning)을 연구했습니다. 하지만 이 연구의 한계는 로봇의 상식 부재였습니다. 예를 들어, 로봇 팔이 그릇에 있는 구슬을 스푼으로 담아 다른 그릇으로 옮긴다고 했을 때, 기존엔 로봇이 사람의 동작을 꾸준히 따라 해 최적화했으나 로봇이 스푼을 떨어뜨리는 등의 실수가 발생하면 대응이 어려웠습니다.

[사진 5] MIT 연구진이 로봇 팔에 LLM을 연동해 상식을 부여한 모습

그 이유는 로봇이 구슬을 떠서 다른 그릇으로 옮기는 행동만 학습했기 때문인데요. 이를 해결하기 위해선 로봇 엔지니어가 로봇 행동 예측부터 설계, 레이블 지정과 코딩까지 해야 했습니다. 문제는 휴머노이드가 집안일처럼 변수가 많은 일에 대응을 할 수 있느냐였는데요. 이에 MIT 연구진은 ‘상식’이라는 개념을 도입했습니다. 가령 스푼을 떨어뜨려도 이를 집어야 한다는 상식이 없는 로봇에게 MIT 연구진은 비쥬얼 그라운딩(Visual Grounding, 텍스트로 설명한 객체를 시각적인 이미지로 인지하거나, 반대로 이미지를 텍스트로 설명할 수 있는 멀티모달 기술) 기술을 활용해 상식을 주입시키는 실험을 진행했습니다. 연구진은 로봇 팔의 물리적 좌표와 로봇 상태에 대한 이미지를 실시간 자연어로 연동했습니다. 예를 들어 로봇 팔이 다른 그릇에 도달했을 경우 LLM이 이를 인지하도록 프로그램이 한 것인데요. 이후 LLM에 로봇 팔이 구슬을 다른 그릇으로 옮기는 단계를 나열하도록 지시한 뒤 로봇 동작 궤적 데이터(motion trajectory data)에 연결했습니다. 실험은 성공적이었습니다. 실험자들이 중간중간 로봇 팔을 밀치는 등 방해를 했지만 흔들린 로봇 팔은 상태를 정확히 인식하며 스스로 전략을 세워 구슬을 옮겼습니다.

• 사람의 말을 이해하는 구글 딥마인드의 RT-2

구글 딥마인드 역시 비슷한 실험을 진행했습니다. 대표적으로 2023년 선보인 구글 RT-2 로봇이 있습니다. 구글 연구진은 시연에서 “상 위에 있는 과일 중 딸기만 담아”라고 명령했고, RT-2는 명령대로 딸기만 바구니에 담았습니다. 게다가 “장난감 차 가운데 독일산 차를 골라 독일 국기 앞에 내려놓아”라고 명령하자 이 역시 그대로 수행했습니다. 그동안 많은 로봇들이 정해진 경로대로 임무를 수행한 것과 다르게 RT-2는 사람의 명령을 그대로 인지하는 것을 알 수 있습니다. 구글 딥마인드의 로봇공학 책임자인 빈센트 반호크는 “초거대 AI 등장으로 이전 연구를 백지화해야했다”고 언급했습니다.

• 청소 산업을 발전시킬 타이디 봇의 등장

프린스턴대 역시 비슷한 로봇을 개발 중입니다. 대표적으로 ‘타이디 봇’이 있습니다. 그동안 먼지만 빨아들이고 걸레질을 했던 로봇 청소기와 다르게 타이디 봇은 방에 있는 쓰레기를 쓰레기통으로 옮겨 담는 것이 특징입니다. 타이디 봇은 70개에 달하는 전혀 다른 물체를 11개로 분류하는 작업도 완수했는데요. 이에 대해 프린스턴대는 “현재 85% 성공률을 보이고 있다”면서 “향후 이같은 로봇이 청소 산업을 획기적으로 바꿀 수 있다”고 덧붙였습니다.

LLM이 바꿀 휴머노이드의 미래

LLM을 휴머노이드에 연동할 경우 무수히 많은 일을 할 수 있어 특히 생산 비용이 높은 제조 공장에서 수요가 높아지는데요. 때문에 많은 빅테크 기업은 LLM을 활용한 휴머노이드 개발에 도전하며 상용화를 위해 노력하고 있습니다. 아래에서 빅테크 기업들의 휴머노이드 개발 사례를 살펴보겠습니다.

• 피규어 AI

피규어 AI는 전자상거래 업체와 도심항공모빌리티(UAM) 기업을 잇따라 창업한 브렛 애드콕이 이끌고 있는 스타트업으로, 미국의 대표적인 AI 휴머노이드 기업입니다. 특히 제프 베이조스, 엔비디아, MS, 오픈AI, LG, 삼성 등으로부터 투자를 받아 주목을 끌기도 했습니다. 브렛 애드콕 CEO는 “단기적으로 노동력이 엄청 부족하다”며 “시간당 20달러를 받고 공장에서 일하려는 사람이 없다”고 설명하며 언젠가는 로봇이 인간보다 능숙히 일하면서 생산성을 급격히 높일 것이라고 언급했습니다.

피규어 AI의 휴머노이드는 커피 캡슐 머신을 능숙하게 다뤄 시선을 끌었습니다. 이 휴머노이드는 높이 1.68m 무게 60kg으로 사람과 비슷한데요. 초당 1.2m를 걸을 수 있으며 적재 용량은 20kg에 달합니다. 현재 피규어 AI는 자동차 업체 BMW와 협력 계약을 맺어 사우스캐롤라이나주 스파턴버그의 BMW 제조 공장에 투입될 예정입니다. BMW는 “피규어 AI 휴머노이드는 다양하고 복잡한 물체를 조작할 수 있다”면서 “양팔을 사용해 조립하고 민첩하게 움직여야 하는 자동차 공장 특성상 일반 로봇보다 휴머노이드가 적합하다”고 설명했습니다.

• 보스턴 다이내믹스

보스턴 다이내믹스는 로봇 개 ‘스팟’을 투어 가이드로 전환하는 영상을 시연했습니다. 스팟과 대화를 주고받으며 공장에 대한 설명을 듣고, 스팟이 현장을 안내하는 방식이었는데요. 보스턴 다이내믹스가 주목한 것은 LLM이 가진 역할극 기능이었습니다. LLM 챗봇을 상대로 공장 투어가이드 페르소나를 부여하고 일관성 있는 답변을 만든 것인데요. 스팟은 비전 처리 기술을 활용해 공장 곳곳 이미지를 자연어로 이해하고 이를 토대로 대답을 했습니다. 스팟은 시연 동안 주변 곳곳을 돌아다니며 사물을 살피고 해당 장소를 설명했습니다.

[참고자료]

• Yoshida, Takahide, Atsushi Masumori, and Takashi Ikegami, “FROM TEXT TO MOTION: GROUNDING GPT-4 IN A HUMANOID ROBOT ‘ALTER3.’”

• Chu, Jennifer , “Engineering Household Robots to Have a Little Common Sense.”

• LG CNS 블로그, “LG CNS, ‘로봇 통합운영 플랫폼’ 개발”

• LG전자 뉴스룸, “LG전자, ‘스마트홈 AI 에이전트’ 첫 공개”

글 ㅣ 이상덕 ㅣ 매일경제 기자·미라클AI 에디터·<챗GPT 전쟁: 실리콘밸리는 지금 무엇을 준비하고 있는가> 저자