2024년 AI 업계를 달굴 핫 키워드 LAM(대규모 행동 모델)

“2024년엔 진정한 에이전트(Agent, 복잡한 동적인 환경에서 목표를 달성하려고 시도하는 시스템)가 몰려온다.”

2023년은 대규모 언어 모델(LLM, Large Language Model, 이하 LLM) 기반의 생성형 AI(Generative AI)가 큰 물결을 일으켰던 해였습니다. 이제 AI는 이메일 작성, 이미지 생성, 검색, 코딩 등 다양한 분야에서 빼놓을 수 없는 기술로 자리 잡았는데요. 2024년, AI 업계에는 또 다른 물결이 일 것으로 보입니다. 바로 대규모 행동 모델(LAM, Large Action Model, 이하 LAM)입니다. LAM은 문자 그대로 사용자 행동 패턴을 학습해 웹과 앱을 직접 작동시킬 수 있는 AI입니다. LLM이 문장과 그림, 비디오 등을 생성하는 데에 특화돼 있다면, LAM은 언어적 유창성과 독립적 작업 수행 능력을 결합해 단순히 무언가를 생성하는 데 그치지 않고 직접 작업을 수행하며 인간을 대신해 줄 에이전트입니다.

이번 글에서는 LAM 기반의 제품 사례와 LAM의 등장으로 바뀔 미래 모습 그리고 LAM의 특징에 대해 살펴보겠습니다.

래빗 R1으로 본 디바이스의 미래

[그림 2] 래빗 R1의 스펙 : LAM, 음성인식, 컴퓨터 비전을 제공 (출처 : 래빗)

미국 라스베이거스 컨벤션센터에서 지난 1월 9일부터 12일까지 열린 세계 최대 IT 박람회 ‘CES 2024’에서 ‘래빗(Rabbit) R1(이하 래빗 R1)’이 AI 업계의 눈길을 끌었습니다. ‘래빗 R1’의 가격은 199달러로, 저렴한 대신 2.88인치의 터치스크린과 회전식 카메라, 휠로 움직이는 물리 버튼 등 장치 곳곳에 비용을 줄인 흔적이 있습니다. 프로세서는 2.3GHz 미디어텍(Media Tek)을 사용했고, 4GB 메모리에 128GB 스토리지를 장착했습니다. 또한 ‘래빗 R1’의 온스크린 인터페이스는 음악, 교통, 화상 채팅 등 카테고리별 카드로 구성된 것이 특징입니다.

현장 테크 관계자들의 미래 기술을 엿보았다는 평가와 함께, ‘래빗 R1’은 2024 CES에서 1만대 판매를 기록했습니다. ‘래빗 R1’은 LAM 기반으로 작동하는 자체 운영체제인 ‘래빗OS’를 탑재했는데요. 웹사이트, 앱, 플랫폼, 데스크톱 상관없이 서비스를 작동할 수 있는 콘트롤러의 역할을 합니다. ‘래빗 R1’을 활용해 음악을 재생하고, 식료품을 구매할 수 있으며, 문자 메시지를 보낼 수 있습니다. 예를 들어, 휴대폰으로 택시를 부른다면 우리는 앱을 열어 위치를 입력하고 차량을 확인한 뒤 기사를 호출해야 하는 등 수많은 클릭을 해야 하는데요. ‘래빗 R1’은 음성만으로 곧바로 택시를 호출할 수 있습니다.

[그림 3] ‘래빗 R1’에서 음성으로 피자를 주문하는 모습 (출처: 래빗)

‘래빗 R1’이 즉석에서 앱을 작동시킬 수 있는 이유는 사용자의 앱 사용 패턴을 AI가 학습했기 때문입니다. ‘래빗 R1’은 택시 호출 앱의 아이콘 모습, 주문 시점, 검색 메뉴, 위치 등을 학습했습니다. 아울러 ‘래빗 홀(Rabbit Hole)’이라는 웹 포털을 통해 다양한 작업을 수행할 수 있도록 지원하는데요. 음성 인식 기능을 갖춰 음성만으로 앱을 제어할 수 있고, 전용 트레이닝 모드로 각종 앱을 직접 훈련시킬 수 있습니다.

이런 디바이스가 현실 세계를 얼마나 파고들지는 알 수 없으나, 테크 업계에서는 이를 또 하나의 혁신적인 이벤트로 받아들였습니다. 챗GPT가 2023년 11월에 LLM이라는 새로운 세상을 열었듯, ‘래빗 R1’이 LAM의 시대를 여는 게 아니냐는 기대를 품고 있습니다. 아직은 단정 짓기 어렵지만 디바이스에 LAM이 부착되면 모든 행동이 자동화될 가능성이 큽니다.

인터넷을 바꿀 어뎁트의 ACT-1 LAM

[그림 4] 어뎁트 ACT-1이 부동산 사이트를 작동시키는 모습 (출처 : ADEPT)

오픈AI에서 부사장으로 근무했던 데이비드 루안이 2022년 창업한 스타트업 어뎁트(ADEPT, 이하 어뎁트)도 있습니다. 어뎁트는 얼마 전 LAM 모델인 액션트랜스포머 ‘ACT-1’을 런칭했습니다.

‘ACT-1’은 디지털 도구를 사용할 수 있도록 훈련된 대규모 트랜스포머입니다. 특히 웹 브라우저 사용법을 학습해 주목을 받았는데요. 현재 ‘ACT-1’은 크롬 확장 프로그램에 연결돼 있습니다. 브라우저에서 일어나는 태스크(task, 작업 단위의 실행 단위)를 모니터링하고 클릭, 입력, 스크롤 등 다양한 동작을 수행할 수 있습니다. 어뎁트는 “모델링 측면과 소프트웨어 측면 모두에서, 더 빠르게 만들 수 있는 여지가 충분하다. 앞으로 인터넷에서 벌어질 일들은 사람이 거의 감지할 수 없을 것이고, 사용자가 원하는 것들은 입력 없이 실시간으로 이뤄질 것이다.”라고 설명했습니다.

[그림 5] ACT-1에서 스프레드시트를 작동시켜 가게 별 영업 마진을 보여 달라고 요청해 엑셀을 정렬시킨 모습 (출처 : ADEPT)

현재 어뎁트의 ‘ACT-1’은 위젯 형태의 챗봇으로 사용 가능합니다. 사용자가 해당 웹페이지에서 원하는 것을 입력하면 ‘ACT-1’이 알아서 나머지를 처리하는 방식인데요. 예를 들어, 부동산 웹페이지인 레드핀(Redfin.com)에 접속해 원하는 매물을 찾는다고 가정하겠습니다. 그동안 매물을 찾을 땐 사람이 직접 원하는 가격대, 지역, 방 개수 등을 입력한 검색 결과로 판단해야 했는데요. ‘ACT-1’의 위젯 형태의 챗봇은 사용자가 원하는 조건을 입력하기만 하면 원하는 매물을 콕 집어서 추천합니다. 10회 이상 클릭해야 찾을 수 있던 부동산 매물 검색을 이제 문장 입력 한 번에 해결할 수 있게 된 것입니다.

더 놀라운 점은 생산성 도구에도 ‘ACT-1’을 사용할 수 있다는 사실입니다. 예를 들어 스프레드시트를 작업하려면 수많은 클릭과 수많은 입력이 필요하고, 스프레드시트의 고급 기능을 쓰려면 별도로 함수를 배워야 했습니다. 하지만 ‘ACT-1’은 문장을 입력하는 것만으로 셀을 정렬하고 원하는 코드를 삽입할 수 있습니다. 또 지메일에 ‘ACT-1’을 부착해 사용할 경우, 예약 이메일을 자동 발송할 수 있고, 위키피디아에 부착할 경우엔 원하는 정보를 추출할 수 있습니다. 앞으로는 LAM 챗봇으로 원하는 답변만 찾아낼 수 있습니다.

인간을 대신할 AI, LAM의 특징과 미래

지금까지 살펴봤듯이, LLM과 LAM이 결합될 경우 인간의 행동을 대신할 AI 에이전트가 탄생할 수 있습니다. 일례로, 마케팅 분야에서 LLM이 카피 작성, 이미지 생성, 웹 레이아웃 생성 등의 역할을 하면, LAM은 이 과정을 자동화할 수 있습니다. 즉, 음성이나 문자 입력만으로 AI가 마케팅 자료, 고객 데이터, LLM 등에 접근해 이를 직접 다루는 게 가능해지는 것입니다. LAM의 특징은 크게 세 가지입니다.

1. 고급 데이터 처리: LAM은 방대한 데이터 세트를 처리하고 분석할 수 있습니다. 광범위한 데이터 해석이 필요한 애플리케이션에 효과적입니다.

2. 효율적인 의사 결정: LAM은 정교한 알고리즘을 통해 의사 결정 과정을 자동화합니다. AI 시스템이 더 복잡한 작업을 효과적으로 실행할 수 있도록 지원합니다.

3. 확장성과 유연성: LAM은 확장성이 매우 뛰어납니다. 간단한 자동화부터 복잡한 문제 해결까지 다양한 앱에 적용할 수 있습니다.

이와 같은 특징을 가진 LAM을 챗봇에 접목한다면 어떻게 될까요? 현재 자동차 판매 사이트에 부착된 AI 챗봇은 학습한 데이터를 기반으로 사용자 질문에 답변하지만, LAM을 결합한 챗봇은 소비자가 원하는 차량을 판별해 예약 주문까지 수행합니다. 즉, 개인화가 가능해지는 건데요. 사용자의 인터넷 활용 패턴을 학습해 일상 업무를 자동화할 수도 있습니다. LLM이 은행 대출 초안을 작성했다면, LAM은 은행에 대출 서류를 발송하는 일까지 대신하게 되는 것이죠.

LAM 기술은 휴먼 컴퓨터 인터페이스(HCI, Human Computer Interface, 사람의 음성, 뇌파, 근육, 동작 등을 기계가 인식하는 것) 영역을 크게 뒤바꿀 것으로 보입니다. 지금까지 컴퓨터와의 상호작용은 그래픽 유저 인터페이스(GUI, Graphical User Interface, 사용자가 컴퓨터와 정보를 쉽게 교환하고 상호 작용하기 위해 아이콘 등과 같은 그래픽을 이용한 사용자 인터페이스)를 통해 이뤄졌는데요. 버튼의 위치, 하위 레이어의 위치 등을 알고, 이를 작동하기 위해 직접 사람이 움직여야 했습니다. LAM과같이 복잡한 소프트웨어는 시간을 들여 학습해야 하기 때문에 초기에는 오히려 구식으로 느껴질 수 있습니다. 하지만 앞으로의 LAM 기술은 초보자도 전문 지식 없이 자유자재로 사용할 수 있고, 고령자나 장애인도 디지털 장벽 없이 소프트웨어를 작동할 수 있도록 만들 것입니다. LAM이 AI 에이전트의 서막이라고 불리는 이유입니다.

글 ㅣ 이상덕 ㅣ 매일경제 기자·미라클AI 에디터·<챗GPT 전쟁: 실리콘밸리는 지금 무엇을 준비하고 있는가> 저자

블로그

2024년 AI 업계를 달굴 핫 키워드 LAM(대규모 행동 모델)

관련 아티클