찰떡같이 알아듣는 ‘디지털 휴먼, 그 속엔 어떤 기술이 쓰였을까?

디지털 휴먼 기술은 단순히 사람과 비슷한 형상을 만드는 것이 아닙니다. 제품이 인간과 어떻게 상호작용하는지, 용도와 목적에 따라서 고도화해야 하죠. 상호작용이 대화를 중심으로 이루어진다면 상반신만으로 충분한데요. 대신, 대화할 수 있는 수준의 지능이 필요합니다. 행동을 중심으로 상호작용한다면 자연스럽게 움직이는 전신을 구현해야 합니다. 서비스형 디지털 휴먼(DHaaS)이 빠르게 발전하고 있는 만큼, 기업은 여기에 필요한 디지털 휴먼을 정확하게 이해해야 합니다.

대화를 통한 커뮤니케이션, 디지털 휴먼 프로젝트 (Digital Human Project)

‘디지털 휴먼 프로젝트(Digital Human Project)’는 유니큐, 뉴사우스웨일스 대학교의 엑셀러레이트(Accelerate)가 공동 참여한 유명한 디지털 휴먼 사례 중 하나입니다. 2018년, 전직 유니버시티 칼리지 런던의 수학 교수이자, 모델 겸 인플루언서 피에르토 보셀리를 디지털 휴먼으로 만드는 것으로 이 프로젝트는 본격화됐는데요. 이후 필요한 곳에 디지털 휴먼을 보급하고 있습니다.

이 프로젝트의 목적은 크게 5가지입니다.

첫 번째는 개발 기록인데요. 디지털 휴먼의 가능성과 다양한 응용에 대한 설명을 다큐멘터리로 제작합니다. 두 번째는 DX(Digital Transformation, 디지털 전환) 연구입니다. 입증된 연구 및 설계, 디자인, 사고방식을 적용해 이점을 깊게 살핍니다. 세 번째는 사례 확보입니다. 프로젝트 결과를 바탕으로 가능성을 보여주는 실제 사용 사례를 개발합니다. 네 번째는 애플리케이션입니다. 프로젝트를 통해 실제 상황에 적용할 수 있는 애플리케이션을 세분화해 개발합니다. 마지막으로 다섯 번째는 실패에서 배우는 것입니다. 아직 디지털 휴먼은 초기 단계이기에 실패에서 더 많은 교훈을 얻을 수 있습니다.

디지털 휴먼 프로젝트의 핵심은 대화를 통한 커뮤니케이션입니다. 그래서 인간과 대화가 필요한 분야에서 활용하고자 상반신만 구현하죠. 이를 위해 유니큐는 IBM, 스파크64(Spark64) 등 AI 기술 개발 회사와 제휴하고 있습니다. 특히, 스파크64는 2013년에 설립돼 지능형 챗봇에 주력했던 회사였는데요. 현재는 디지털 휴먼을 통한 AI 커뮤니케이션 기술 개발에 집중하고 있습니다. 이를 통해 디지털 휴먼이 챗봇의 진화형이라는 연속성을 확인할 수 있습니다.

디지털 휴먼 바리스타, 벨라
2019년, 제이드 소프트웨어 코퍼레이션(Jade Software Corporation)은 캔타버그 테크 서밋 2019에서 대화할 수 있는 AI 디지털 휴먼이자 커피에 관한 거의 모든 지식을 갖춘 바리스타 벨라(Bella)를 공개했습니다. 벨라는 상호작용 AI와 커피 지식을 스크립트로 전환한 챗봇, 그리고 주문받은 커피를 제공하는 IoT 커피 머신으로 이루어졌습니다.

이 프로젝트는 이틀째에 커피머신을 리버스 엔지니어링하고, 일주일째에 챗봇 개발사 앰빗(Ambit)의 챗봇 AI 플랫폼을 활용해 ‘커피를 원하는지, 사이즈, 종류, 우유, 설탕 유무’의 다섯 가지 주제로 대화 흐름을 디자인했습니다. 8일째, 유니큐의 도움으로 디지털 휴먼의 시각화 작업을 시작했고, 12일째 모든 기술을 결합해 14일째에 벨라를 선보였죠. 기존 지능형 대화 기술에 디지털 휴먼과 커피 머신을 연결하는 것이 전부였습니다.

여기서 달라진 건 바로 상호작용입니다. 만약 벨라가 디지털 휴먼으로 살아나지 않았다면 사람들은 커피머신과 대화해야 하죠. 그렇다면 표정이나 제스처가 없는 기계보다는 주문을 선택할 수 있는 레버나 버튼을 제공하는 편이 낫습니다. 그렇다면 기존 커피 머신과 다른 게 무엇일까요? 많은 선택지를 레버나 버튼에 추가할 수 없다면 직관적인 상호작용을 위해서는 대화형이 고려돼야 합니다. 표정과 제스처로 대화에 집중할 수 있게 하고, 대화 경험을 자연스러운 경험으로 바꾸면서 일관적인 UX를 제공할 수 있습니다.

노엘 리밍의 놀라(Nola)
앞서 소개한 벨라의 커피머신은 뉴질랜드의 가전제품 소매업체 노엘 리밍(Noel Leeming)을 통해 리버스 엔지니어링한 것입니다. 이런 협업이 가능했던 이유는 노엘 리밍의 디지털 직원 ‘놀라(Nola)’를 제이드가 설계했기 때문인데요. 노엘 리밍의 요청으로 사용자 워크숍을 진행해 고객과 노엘 리밍의 상호작용을 학습했습니다. 그리고 앰빗의 자연 언어 처리(Natural Language Processing, NLP) 엔진으로 사람들과 대화할 수 있도록 가르쳤고, 유니큐를 통해 노엘 리밍이 실제 직원처럼 보이도록 모습을 디자인했습니다.

놀라는 출시 첫 1개월 동안 노엘 리밍 고객과 1만 5,000건 이상 상호작용했고, 학습을 계속했습니다. 여전히 노엘 리밍 매장에는 실제 직원이 존재했지만, 사람을 통한 일반적인 도움을 원하지 않으면서 직접 찾아보려는 고객은 놀라를 더 적극적으로 사용했죠. 놀라는 사람처럼 보여도 실제 사람이 아니기에 디지털 상호작용을 요구하는 고객들에게 좋은 반응을 얻었습니다.

제조업의 디지털 트윈 휴먼

디지털 트윈(Digital Twin)은 컴퓨터에 현실 속 사물의 쌍둥이를 만들고, 실제로 발생할 수 있는 상황을 미리 시뮬레이션해 결과를 예측하는 기술입니다. 그렇다면 사람의 쌍둥이를 만들면 어떨까요? 시뮬레이션에 사용된 최초의 가상 인간 ‘보잉맨’에 지능이 생긴 것과 마찬가지겠죠. 이를 ‘디지털 트윈 휴먼(Digital Twin Human)’이라고 부릅니다.

보잉맨은 인체공학적 연구 결과로 정적인 영역인 항공기 조종석을 시뮬레이션하기 위해 만들어졌습니다. 반면, 디지털 트윈 휴먼은 인지심리적 연구 결과로 행동이 발생하는 동적인 영역을 시뮬레이션하도록 설계됐죠.

디지털 트윈 휴먼이 지능을 지녔다고 할 수 없는 건 실제 인간의 행동이 기반이기 때문입니다. 다만, 인간의 행동을 파악해 어떤 상황이 발생할 수 있는지 확인하는 것이기에 마치 지능을 가진 디지털 휴먼이 행동하는 것처럼 보일 뿐이죠. 컴퓨터가 학습하는 방법은 기존 AI 모델과 다르지 않아서 다양한 행동을 학습할수록 점차 특정 행동에 숙련된 디지털 휴먼이 만들어질 것으로 예상됩니다.

엔비디아와 BMW 가상 공장
BMW의 공장은 라인마다 10대의 다양한 자동차를 생산할 수 있습니다. 자동차마다 100가지 이상의 옵션이 있고, 40가지 이상 모델이 있으며, 새로운 차량을 구성하는 방법은 총 2,100가지에 이릅니다. 이런 차량이 전 세계 31개 공장에서 생산되는데요. BMW는 전체 공장에서 발생하는 문제를 예측하고, 복잡한 워크플로우가 완벽한 동기화 상태를 유지할 수 있도록 엔비디아와 협력해 가상 공장을 만들었습니다.

가상 공장은 엔비디아의 디지털 트윈 플랫폼인 ‘옴니버스(Omniverse)’로 구축됐는데요. 옴니버스의 목적은 물리적 기반의 가상 세계에서 로봇이 필요한 기능을 학습할 수 있게 하는 것입니다. 로봇화할 미래의 공장은 작업자가 로봇과 함께 워크플로우를 수행해야 하죠. 이를 위해 학습이 필요한데요. 옴니버스는 가상 공장과 실제 공장의 AI 및 소프트웨어를 일치시킴으로써 가상의 학습이 현실에 반영되도록 설계됐습니다. 가상 공장, 물리적 공장, 로봇을 수평적으로 연결하는 방법인 셈이죠.

BMW는 새로운 차량 모델을 출시할 때마다 공장을 주기적으로 컨피그레이션하는데요. 플래닝 전문가가 직접 모션 캡처 슈트를 입고 가상 환경에 들어가서 작업합니다. 그리고 시뮬레이션의 움직임을 기록한 후 라인 설계를 최적화합니다. ‘작업할 때 몸을 얼마나 숙여야 하는지’, ‘불편하지 않으려면 어떤 크기의 선반이 필요한지’와 같은 것이죠. 그리고 이 기록 데이터를 토대로 엔비디아 디지털 휴먼(NVIDIA Digital Human)을 통해 직원 움직임을 학습한 디지털 휴먼을 생성합니다. 이 시뮬레이션으로 BMW는 새로운 작업자를 라인에 최적화하도록 워크플로우를 개선할 수 있습니다.

여기에 생산 과정에 필요한 자재를 운반하는 지능형 로봇을 추가합니다. 작업자가 라인에서 작업을 수행하면 로봇이 필요한 자재를 자동으로 운반하는데요. 매년 250만 대의 차량을 생산하고, 그중 99%가 맞춤형이기 때문에 자재가 빠르고 정확하게 작업자에게 도달해야 합니다.

BMW는 아이작 엔비디아 로보틱스 플랫폼(NVIDIA Isaac Robotics Platform)의 머신러닝 모델이 작업 환경 이미지를 학습하도록 했습니다. 그리고 심도 인식, 세분화 등 컴퓨터 비전 기술로 필요한 자재를 정확한 시간과 장소에 맞게 옮기도록 했죠.

그렇게 만들어진 가상 공장 라인에서 디지털 휴먼이 작업을 진행합니다. 그리고 실제 움직이는 로봇이 자재를 운송해 워크플로우를 최적화하는데요. 이로써 지연 없는 워크플로우를 적용하고, 개선 시간도 단축할 수 있습니다. BMW는 모든 31개 공장을 디지털 트윈으로 구축했습니다. 이를 통해 플래닝 시간이 단축됐고, 유연성, 정밀성이 개선되면서 효율성은 30% 향상했습니다.

시뮬레이션의 가치는 지속성에 있습니다. 작업자가 바뀌고, 작업 결과물이 다양해질수록 워크플로우의 복잡성은 계속 증가하죠. BMW처럼 작업 공간이 수십 개라면 일관된 관리 포인트를 찾는 건 훨씬 어렵습니다. 이런 어려움을 디지털 휴먼을 통한 디지털 트윈으로 해결할 수 있습니다.

디지털 휴먼 제작 도구, 휴먼 OS 플랫폼

‘휴먼 OS 플랫폼(Human OS Platform)’은 AI의 감정적 상호작용을 연구하는 회사 ‘소울 머신(Soul Machines)’이 개발한 디지털 휴먼 제작 도구입니다.

과거 가상 인간은 인간의 형태만 지녔기에 신체와 자세만으로 시뮬레이션했는데요. 이와 달리, 디지털 휴먼은 인간과의 상호작용을 위한 자연스러운 표정과 제스처가 필요합니다. 자연스러운 행동으로 이어지려면 상대방을 분석해서 인지하고, 곧바로 필요한 반응으로 이어져야 하죠.

그러나 대부분 디지털 휴먼은 대화 내용의 맥락에서 감정을 읽어 내기 때문에 오류가 발생할 가능성이 크고, 부자연스럽습니다. 예를 들어, 디지털 휴먼이 재미있는 질문에 웃으면서 ‘네.’라고 답했다고 가정해봅시다. ‘네.’라는 답만으로는 어떤 감정인지 파악할 수 없죠. 웃고 있다는 것까지 인지해야 대화에 재미를 느끼고, 웃는 행동까지 유도했다고 확신할 수 있습니다.

휴먼 OS 플랫폼은 이런 오류와 부자연스러움을 개선할 목적으로 개발됐습니다. 디지털 브레인(Digital Brain), 자율 애니메이션(Autonomous Animation), 디지털 DNA 스튜디오(Digital DNA Studio)을 결합해 만들었는데요. 인간의 감정을 즉각적으로 이해하고, 실시간 애니메이션으로 반응하는 디지털 휴먼을 몇 번의 클릭만으로 수 분 만에 만들 수 있게 됐습니다.

인간 뇌와 같은 처리 방식, 디지털 브레인(Digital Brain)
‘디지털 브레인’은 신경과학, 심리학, 인지과학에 대한 심층 연구 결과를 기반으로 인간의 뇌가 일상적인 상호작용을 처리하는 방식을 복제합니다. 디지털 브레인은 머신러닝, 자연어 처리, 콘텐츠 인식, 감정 분석, 머신비전, 감정 모델, 주의 조절 기술이 활용되는데요. 디지털 휴먼은 디지털 브레인으로 자동 학습해 자동으로 행동합니다.

소울머신에 따르면 온라인에서 디지털 휴먼과 인간이 웹캠으로 상호작용 중이라고 가정할 때, 인간이 웃으면 디지털 휴먼은 시각 인식 기술로 감정을 인식한다고 합니다. 그리고 가상 신경계가 긍정적인 상황으로 해석해 가상의 도파민과 세로토닌을 생성한다고 하는데요. 이로써 디지털 휴먼이 행복감을 느낀다는 신호를 받고, 인간과 함께 웃을 수 있습니다.

자율 애니메이션(Autonomous Animation) 기술
디지털 브레인으로 감정을 인식한 디지털 휴먼은 적절한 상호작용을 위해 행동해야 합니다. ‘자율 애니메이션’은 인식 직후 디지털 휴먼이 반응할 수 있게 돕는 기술인데요. 표정 렌더링, 시선 응시, 합성 음성, 실시간 제스처, 개성 있는 몸짓을 제공합니다. 이로써 디지털 휴먼은 외부 자극에 자율적으로 반응할 수 있죠. 디지털 휴먼에 대면하는 인간은 디지털 휴먼의 개성을 이해하면서 상호작용을 결정할 수 있습니다.

디지털 DNA 스튜디오
‘디지털 DNA 스튜디오’는 앞서 설명한 디지털 브레인과 자율 애니메이션을 수행할 디지털 휴먼을 만들 수 있도록 돕는 도구입니다. 사용자는 브랜드에 어울리는 얼굴을 직접 선택할 수 있죠. 또한, 디지털 DNA 스튜디오는 음성과 언어, 감정적인 성격, 대화 말뭉치, 역할에 대한 기술, 경험을 통찰할 모니터링 도구를 지원합니다.

디지털 브레인을 지원하는 모든 디지털 휴먼이 똑같이 행동한다면 개성이 없을 겁니다. 대면하는 인간도 브랜드를 밀접하게 느끼지 못하겠죠. 브랜드 경험을 제대로 유도할 수 없다는 얘기입니다. 장례식장의 디지털 휴먼이라면 웃지 않으면서 차분한 성격을 갖춰야 하고, 테마파크라면 언제나 밝아야 합니다. 이러한 개성을 인간의 DNA처럼 설정할 수 있는 도구가 바로 디지털 DNA 스튜디오입니다.

AI 얼굴 렌더링, 디즈니 리서치

다양한 모습과 수많은 인물을 포함하는 콘텐츠를 제작하는 디즈니는 효율적으로 모델을 렌더링하는 방법을 꾸준히 연구했습니다. 원하는 모습의 디지털 휴먼을 짧은 시간 안에 생성하기 위해서였죠.

지난해, 디즈니가 지원하는 기술 연구소, 디즈니 리서치(Disney Research)는 AI 기술을 응용해서 디지털 휴먼의 얼굴을 자동으로 생성하는 기술을 공개했습니다. 핵심은 아티스트의 개입 없이 캡처된 데이터만으로 사실적인 얼굴을 렌더링한다는 점이었는데요. 이 기술은 원하는 피부, 표정, 관점, 조명을 렌더링하는 전통적인 방법부터 시작합니다.

이렇게 만들어진 피부 렌더링은 가상 골격과 눈이 더해지면서 사람의 형태를 갖추게 됩니다. 디즈니가 공개한 기술은 피부 렌더링을 실제 얼굴 이미지 데이터를 학습한 신경망 모델에 적용하는데요. 이를 통해 다양한 얼굴 이미지에 피부 렌더링을 자동으로 씌우고, 머리카락, 눈, 입 안, 주변 환경을 생성해 사실적인 얼굴로 합성할 수 있습니다.

앞서 디즈니 리서치는 심층 신경망(Deep Neural Networks)을 이용해서 사실적인 얼굴 이미지를 비선형 얼굴 모델링으로 생성해 3D 얼굴 데이터베이스를 구축하는 기술을 공개한 바 있습니다. 3D 모델링 얼굴은 모션 캡처로 표정을 더하거나 물리 엔진으로 변형할 수 있는데요. 위 기술과 결합하면 하나의 3D 얼굴 데이터로 수백, 수천 개의 얼굴을 빠르게 생성할 수 있습니다. 각자 다른 표정을 짓거나 주변 환경에 영향을 받는 등 방대한 규모의 얼굴 생성도 AI의 도움으로 처리할 수 있습니다.

[출처]
https://www.accelerate.world/digitalhumanproject
https://www.spark64.com/project/worlds-first-mortgage-lending-digital-human-assistant
https://www.jadeworld.com/resources/blog/we-built-the-worlds-first-digital-barista-but-why
https://www.jadeworld.com/our-work/noel-leeming-conversational-ai
https://blogs.nvidia.com/blog/2021/04/13/nvidia-bmw-factory-future/
https://www.soulmachines.com/
https://studios.disneyresearch.com/2021/11/30/rendering-with-style-combining-traditional-and-neural-approaches-for-high-quality-face-rendering/
https://studios.disneyresearch.com/2020/11/25/semantic-deep-face-models/

글 ㅣ LG CNS 기술전략팀 정가영 책임연구원

블로그

찰떡같이 알아듣는 ‘디지털 휴먼, 그 속엔 어떤 기술이 쓰였을까?

대화를 통한 커뮤니케이션, 디지털 휴먼 프로젝트 (Digital Human Project)

제조업의 디지털 트윈 휴먼

디지털 휴먼 제작 도구, 휴먼 OS 플랫폼

AI 얼굴 렌더링, 디즈니 리서치

관련 아티클