본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

CNS Tech

확장현실(XR)에 화룡점정을 찍다! 최신 실감형 오디오 기술

2021.04.07

확장현실(eXtended Reality, XR)은 가상현실(Virtual Reality, VR)과 증강현실(Augmented Reality, AR)을 아우르는 초실감 기술을 의미합니다. 오늘날 비대면 수요가 증가하면서 큰 주목을 받고 있는 기술인데요. XR의 핵심은 무엇일까요? 가상과 현실을 구분할 수 없을 만큼 정교한 디지털 경험을 제공하는 것입니다. 그래서 현실감 있는 그래픽 객체와 자연스럽게 상호작용할 인터페이스 디자인의 발전이 우선됐습니다.

그러나 그래픽 기술이 아무리 발전해도 기존 오디오 기술로는 완벽한 현실감을 제공할 수 없었습니다. 콘텐츠 상황을 전달하기 위한 것일 뿐 인간과의 상호작용에 중점을 두지 않았기 때문입니다. 그래서 최근엔 XR에 어울리는 오디오 기술 개발이 활발하게 이뤄지고 있습니다.

지난해 7월에 애플은 골전도 오디오 시스템에 관한 특허를 출원했습니다. 오디오 신호를 주파수로 나누어서 일부는 기존처럼 듣고, 일부는 골전도로 들을 수 있다는 게 애플의 설명입니다. 골전도 오디오는 고막이 아닌 뼈나 피부의 진동으로 소리를 전달하는 방식입니다. 귀를 막지 않아서 주변 소음을 들을 수 있는 것이 특징입니다. 또한, 고막이 손상된 사람도 사용할 수 있습니다. 대신 음역에 따라서 제대로 들을 수 없고, 두통 등 증상을 동반할 수 있다는 단점이 있습니다.

애플 골전도 오디오 (출처: 미국특허상표청)

애플의 특허는 하이브리드형으로 골전도로 듣다가 고막으로도 들을 수 있는 형태입니다. 이는 일반적인 상황에서 효과를 발휘하기 어렵습니다. 외부 소리를 들어야 할 때는 골전도 오디오로, 높은 수준의 음질이 요구될 때는 고막을 사용해서 다방면으로 좋을 것 같습니다. 하지만 상황에 따라 오디오 시스템을 변경하고 이를 사용자가 판단해야 한다는 점에서 편의성이 부족합니다. 최근에는 액티브 노이즈 캔슬링(Active Noise Cancellation, ANC)을 탑재한 헤드폰이 늘면서 골전도 오디오의 입지도 좁아졌습니다. 하지만 XR에서는 획기적인 경험을 제공할 수 있습니다.

XR은 그래픽 상호작용을 위한 헤드셋이 꼭 필요합니다. 거기에 소리까지 전달할 헤드폰도 착용해야 하죠. 외부 활동에 AR을 활용한다면 두 가지 기기를 모두 착용한 상태여야 하는 건데, 이때 헤드폰을 착용할 수 없거나 배터리 부족 등 여러 문제가 생길 수 있습니다. 더구나 두 가지를 모두 휴대하다가 한꺼번에 착용해야 하는 것도 불편한 얘기입니다. 고로 한 가지 기기만으로 외부 소음을 들으면서도 오디오 상호작용할 방법이 필요한 겁니다.

골전도 오디오 시스템을 이용하면 헤드셋만으로 전화, 알림음, 조작음을 들을 수 있습니다. 헤드폰은 영상, 음악, 게임 등 멀티미디어를 이용할 때만 착용하고, 착용이 어려운 상황에서도 골전도 오디오로 기본 상호작용을 지속하는 것입니다.

애플이 준비 중인 또 다른 오디오 기술은 AR 헤드셋을 직접 겨냥합니다. 지난 2월에 출원한 ‘헤드셋 장치에 대한 오디오 기반 피드백’이라는 특허에 따르면, 헤드셋에 여러 개의 마이크를 탑재하여 일반적으로 듣기 어려운 소리를 감지하거나 특정 소리의 위치를 파악할 수 있음을 시사합니다. 이 기술은 크게 세 가지 측면에서 유용할 수 있습니다.

애플 AR 헤드셋 오디오 (출처: 미국특허상표청)

첫 번째는 ‘음성 인터페이스 조작’입니다. 애플이 최근 출원한 다른 특허는 시리(Siri)가 목소리의 높낮이를 기준으로 얼마나 멀리 떨어져 있는지 추적하는 기술을 설명합니다. 마이크가 외부 소음을 받아들일 때 착용자의 목소리만 감지해서 작은 소리로도 시리에 명령을 내릴 수 있을 것입니다.

두 번째는 ‘방향 감지’입니다. AR 헤드셋을 착용한 상태로 밖에 있을 때 착용자는 외부 소음과 디지털 오디오를 함께 듣게 될 텐데, 외부 소음의 방향은 쉽게 인지하더라도 뒤에서 들리는 디지털 오디오는 감지하지 못할 수 있습니다. 여러 개의 마이크는 착용자가 고개를 돌려도 디지털 객체의 고정된 위치에서 소리가 나도록 정확한 방향을 제시할 것입니다.

세 번째는 ‘객체 인식’입니다. 시각적으로 현실과 가상을 구별하기 어려운 상황에서 헤드셋 착용자의 뒤로 자동차가 달려오는 중이라면, 해당 자동차가 현실인지 가상인지 알려줄 필요가 있습니다. 자동차 소리를 인지한 헤드셋은 착용자에게 위험하다고 알려줄 수 있겠죠.

XR에서 애플의 가장 강력한 경쟁자로 꼽히는 페이스북도 비슷한 기술을 선보였습니다. 작년 9월, 페이스북 리얼리티 랩스 리서치(Facebook Reality Labs Research)는 마이크를 탑재한 AR 헤드셋 시제품을 공개했습니다. 페이스북은 이 기술을 ‘지각적 초능력(Perceptual Superpowers)’으로 부릅니다.

지각적 초능력은 착용자가 원하는 소리를 잘 들을 수 있도록 지원합니다. 바라보는 객체의 소리를 높이고, 그 외 소리는 줄이는 거죠. 또한 마이크로 입력되는 대화 내용의 문맥을 분석하여 어떤 소리가 중요한지 판단하기도 합니다. 착용자가 시끄러운 공간에서 누군가와 대화하거나 특정 객체와 상호작용할 때 유용할 것입니다. 페이스북은 “다른 사람이 말하는 걸 이해하기 위해서 목소리를 높이거나 긴장하며 듣지 않아도 붐비는 식당과 술집에서 대화할 수 있다고 상상해보라”고 말합니다.

애플 AR 헤드셋 오디오 (출처: 페이스북 홈페이지)

현재 지각적 초능력이 성능을 발휘하려면 최소 32개의 마이크가 필요합니다. 개인정보 침해 문제도 있습니다. 강력한 마이크와 필터링은 공공장소에서 다른 사람의 대화를 도청하는 데에 사용될 위험이 있죠. 경량화와 개인정보 보호가 이뤄져야 상용화 단계에 도달할 겁니다. 단지 애플과 페이스북의 시도는 XR의 완벽한 디지털 경험에 갖춰야 할 오디오 기술의 발전 방향을 제시합니다.

1.현실과 가상의 소리 융합

이전까지 XR 구현에 적용된 오디오 기술은 입체 음향에 초점을 두었습니다. 모든 방향에서 객체 음향을 전달해야 인간이 디지털 공간에 있다는 걸 인식할 수 있기 때문입니다. 그러나 VR과 AR이 분리된 기술이 아닌 환경에 따라서 반전하는 통합 기술로 연구되자 어떨 때는 현실과 구분하지 못할 만큼 정교합니다. 하지만 어떨 때는 현실과 가상을 인지할 수 있어야 한다는 새로운 관점이 대두했습니다.

현실의 소리를 잘 들을 수 있게 하면서 가상의 소리에 현실이 반영된 듯 융합하고, AR에서는 주변을 인식하게 하면서 VR로 전환할 때는 가상에 집중할 수 있게 현실 소리를 차단하여 반전하는, 또 중요한 소리는 현실에서 들린다는 피드백과 상호작용이 요구됩니다.

2.개인화

스마트폰은 작은 단말기 안의 디지털 경험을 개인화했습니다. XR은 인간이 접촉할 수 있는 모든 공간에 디지털 경험을 입히고, 사람마다 다른 현실을 바라보게 합니다. 가령 거리의 모든 브랜드와 디지털 상호작용한다면 온갖 소리가 한꺼번에 밀려들 것입니다. 헤드셋 착용자가 원하는 소리만 전달되어야 하고, 그렇지 않은 소리가 차단될 수 있도록 해야겠죠.

이는 현실 소리도 포함합니다. 특정 브랜드의 경험을 차단하면 매장 따위를 지날 때 현실 소리는 차단되고, 상호작용을 원하는 가상의 소리만 전달하는 겁니다. 받아들이고자 하는 것과 그렇지 않을 걸 구분하는 오디오 시스템만이 현실과 가상의 경계를 무너뜨리는 XR 경험을 제공할 수 있습니다.

3.인간과 인간의 상호작용

PC나 스마트폰과 같은 단말기에서 오디오 상호작용은 인간과 기계를 연결하는 방식이었습니다. 하지만 AR은 모든 현실을 디지털 경험으로 전환하고, 사람도 객체로 인식합니다. 이에 비해 VR은 모든 객체가 가상에 존재하기에 옆에 있는 사람을 실제 인간으로 구분하지 못할 수도 있습니다. 즉, 인간은 다른 인간이 현실 또는 가상에 존재한다는 걸 이해하며 이들과 상호작용할 수 있어야 합니다. 그리고 가장 직관적인 방법이 음성입니다.

예컨대 한 명은 현실의 거리를 걷는 AR 이용자, 다른 한 명은 가상에서 같은 거리를 함께 걷는 VR 이용자라고 상상해봅시다. AR 이용자는 다른 사람이 보지 못하는 가상의 VR 이용자와 함께 현실의 거리를 걷습니다. VR 이용자는 가상에서 AR 이용자와 함께 있으나 현실의 소리는 들을 수 없죠. 거기서 현실과 가상의 경계가 무너질 수 있습니다. 그렇지 않으려면 XR은 인간과 인간의 오디오 상호작용에서 현실과 가상의 경험을 동시에 제공해야 합니다.

초현실(Hyper-Reality) (출처: 유튜브 채널 Keiichi Matsuda)

전통적인 디지털 경험은 인간이 디지털 객체나 콘텐츠와 상호작용할 수 있게 돕는 역할만 했습니다. 그래서 콘텐츠의 소리를 가장 잘 전달하는 것이 우수한 오디오 시스템으로 여겨졌죠. XR에서는 디지털 객체나 콘텐츠만 아니라 주변 환경과 다른 인간까지 오디오 시스템에 포함할 수 있어야 합니다. 더 정교하고, 지능적인 상호작용이 고려됩니다.

오히려 그래픽 상호작용은 어색하더라도 현실과 가상을 쉽게 구분할 수 있기에 인간의 인지 능력을 해치지 않습니다. 반면, 오디오 상호작용은 TV 속 소리를 현실의 소리로 착각할 때가 있는 것처럼 인지 능력 밖의 상황을 쉽게 구현할 수 있습니다. 원활한 상호작용을 위해서는 때로 현실과 가상을 구별할 방안이 필요하고, 디지털 경험을 방해하지 않을 수단도 갖춰야 합니다.

높은 품질의 XR을 구축하려면 어느 분야보다 오디오를 통한 완벽한 상호작용을 기대해야 합니다. 그에 따른 오디오 기술 경쟁이 어떤 때보다 심화할 것으로 전망합니다.

글 ㅣ 맥갤러리 ㅣ IT 칼럼리스트

챗봇과 대화를 할 수 있어요