내 귀에 AI 비서! 지금은 ‘히어러블(Hearable)’ 시대

인공지능은 어느새 우리 삶과 함께하고 있습니다. 소셜 미디어에서 인공지능은 개인마다 다른 화면을 보여주며, 음악 스트리밍 서비스에서는 취향을 분석해 사용자가 좋아할 만한 음악을 추천합니다. 최근 뉴스에서 접하는 자율주행차, 로봇 개발 역시 인공지능의 힘이 뒷받침되고 있습니다.

그런데 많은 IT 기업이 거액을 투자하며 개발과 대중화에 힘을 쏟고 있는 기술이 있습니다. 바로 ‘음성인식’입니다. 인공지능 제품과 서비스를 생각해보면, 어느 순간 우리 삶에 스며든 기술이 인공지능 기반 음성인식입니다.

집에서 음성인식 스마트 스피커에 음악을 재생하도록 말하고, 스마트폰에 대고 날씨를 묻습니다. 물론 아직은 대다수의 사용자가 음성인식 기능을 사용한다고 볼 수는 없습니다. 하지만, 많은 IT 기업이 만들어낸 음성인식 스마트 스피커를 하나씩 소유한 가정도 많습니다.

통신 서비스에 가입하면 스마트 스피커를 받기도 하고, 특정 서비스에 가입한 사용자에게 무료로 나눠주는 경우도 있습니다. 전 세계적으로 매년 1억 대가 넘는 스마트 스피커가 가정으로 스며들고 있습니다.

스마트 스피커뿐만 아니라 이전부터 대부분의 스마트폰은 음성인식 기능을 지원하고, 음성인식 기능을 통해 인공지능은 하루가 다르게 성장하고 있습니다. 과연 음성인식 인공지능은 어떻게 시작됐고, 이렇게 빠르게 우리 삶에 스며들게 됐을까요?

음성인식 인공지능의 발전

음성인식 기술 연구는 1950년대부터 시작됐습니다. 사람이 말하는 목소리의 속도와 높낮이, 발성의 차이 등을 연구하며, 기계가 사람의 음성을 인식하는 연구가 이루어졌습니다. 음성인식은 목소리뿐만 아니라 많은 단어를 인식하고 처리해야 합니다. 하지만, 1950년대와 1960년대의 컴퓨팅 파워와 기술로는 수많은 데이터를 처리할 방법이 없었습니다. 따라서 음성인식 기술은 2000년대 중반까지도 쉽게 연구하고 상용화하기 어려웠습니다.

인공지능이 1950년대 탄생해 두 차례의 암흑기를 맞았던 것과 유사하게, 음성인식 기술도 발전과 함께 암흑기를 겪었습니다. 과거 음성인식은 소리를 문자로 바꾸는 것에 한정되어 있었습니다. 사람과 기계의 대화를 가능하게 만드는 자연어 처리(Natural Language Processing) 기술과 딥러닝의 등장, 고성능 GPU와 같은 하드웨어의 눈부신 발전과 더불어 음성인식 기술은 2000년대 후반부터 빛을 보기 시작했습니다.

음성인식의 전체 과정은 음성인식 기기에 말을 하면, ‘음성 입력 → 음성 인식 → 자연어 처리 → 인식 결과’의 순서로 진행됩니다. 이것은 기계가 사람의 언어를 인식하고 이해하기 위해 필요한 과정입니다. 가장 먼저 음성을 입력하면 받아쓰기와 같이 텍스트로 옮깁니다. 발음과 단어를 인식한 후 정확한 입력이 필요해 난이도가 높은 과정입니다. 처음부터 잘못된 입력 데이터를 주면 이후 과정은 빛을 발하지 못하기 때문입니다.

자연어는 사람이 의사소통을 위해 사용하는 언어입니다. 자연어 처리는 기계가 사람의 언어를 분석하고 이해하는 기술입니다. 입력된 음성 데이터를 기반으로 자연어를 분석하면서 기계는 문장에 담긴 의도를 파악하고 지속해서 학습합니다. 인공지능이 사람의 언어를 얼마나 잘 파악할 수 있는지가 핵심입니다.

기계가 기존에 학습한 결과와 각종 데이터를 바탕으로 자연어 처리를 통해 사람의 언어를 인식합니다. 단어와 문장이 각각 어떠한 의미를 지니고 있는지, 연결된 말의 뜻은 무엇인지 등을 파악합니다. 마지막으로 기계는 TTS(Text to Speech) 기술을 통해 텍스트를 다시 음성으로 만듭니다.

사람이 말하듯이 음성의 높낮이나 속도를 조절합니다. 사람의 목소리와 같은 소리를 통해 가장 최적의 결과로 응답합니다. 우리가 스마트 스피커나 스마트폰을 통해 듣는 아마존의 ‘알렉사(Alexa)’ 혹은 애플의 ‘시리(Siri)’의 음성은 이러한 과정을 거쳐 만들어집니다.

음성인식 기술은 딥러닝의 등장으로 더욱더 빠르게 발전하기 시작했습니다. 대량의 데이터가 필요하지만, 딥러닝은 자연어 처리에 효과적인 방식입니다. 음성인식과 자연어 처리의 과정에 딥러닝이 활용되면서 단어나 문장이 어떻게 사용되고 있는지 인공지능이 직접 관찰하고 바로 학습하게 됐습니다. 많은 IT 기업이 음성인식을 활용하는 방식은 인공지능과의 결합이 중심에 있습니다.

음성인식 대중화의 시작, 인공지능 스피커

음성인식 인공지능은 2011년 애플의 ‘시리’로 가장 먼저 대중에게 다가왔습니다. 단순한 음성인식 기술이 아닌 인공지능이 뒷받침하는 음성인식 개인비서로 알려지면서 많은 사람이 관심을 두기 시작했습니다. 이러한 음성인식 기술이 대중화되기 시작한 시점은 음성인식 인공지능 기반의 스마트 스피커가 등장하면서부터 시작됐습니다.

2014년 아마존이 음성인식 인공지능 ‘알렉사’를 탑재한 스마트 스피커 ‘에코’를 출시하면서 대중화의 포문을 열었습니다. 이후 구글, 마이크로소프트 등 많은 기업에서 음성인식 인공지능과 스피커를 내놓으면서 본격적인 확산이 시작됐습니다.

스마트 스피커는 음성을 활용하기 가장 적합한 인터페이스입니다. 사실 스마트폰에 음성인식 기능이 탑재되어 있어도, 집 밖에서 스마트폰에 음성으로 명령어를 입력하는 사용자는 드뭅니다. 스마트폰에 대고 음성으로 명령하는 모습이 아직은 낯설고 어색해 대중적으로 사용하지 않습니다.

반대로 스마트 스피커는 보통 집 안에 설치하고 사용하기 때문에 상대적으로 주위의 시선을 의식할 필요가 없습니다. 전 세계 스마트 스피커는 2019년 약 1억 5천만 대가 팔렸을 정도로 매년 판매량이 상승하고 있습니다. 스마트 스피커를 통해 음성인식의 가능성을 확인한 후 많은 음성인식 인공지능 보유 기업은 집안에서의 가상 비서에서 벗어나 집 밖에서도 활동할 방법을 모색하기 시작했습니다.

새로운 음성인식 기술의 대세, 무선 이어폰

인공지능, IoT 시대에 가장 중요한 인터페이스는 바로 ‘음성’입니다. 물론 여전히 스마트폰과 태블릿 등에 ‘터치’로 입력하는 인터페이스가 대세지만, 음성인식을 통한 대중화는 그리 멀지 않았습니다. 요리할 때 음식의 레시피를 물어보거나, 운전할 때 내비게이션을 손으로 조작하지 않고도 길이 막히는지 물어볼 수 있습니다.

인간의 커뮤니케이션 방식 중 손으로 글을 쓰거나 몸짓으로 의사를 전달할 수 있지만, 가장 빠르고 직관적인 커뮤니케이션 방식은 음성입니다. 최근 IT 기업들의 인공지능 서비스 경쟁이 스마트 스피커를 중심으로 이뤄져 왔던 이유도 이 때문입니다.

인공지능을 집 혹은 사무실에서만 사용하기에는 확장할 수 있는 영역이 제한적입니다. 사용자가 스마트폰을 비롯해 다양한 IT 기기를 소유하고 집 밖에서 활동하는 시간이 더 많습니다. 이 때문에 많은 IT 기업은 ‘집 밖’에서 사용자를 위한 맞춤형 인공지능 비서를 어떻게 제공할 수 있을까 고민하기 시작했습니다.

그리고 새로운 방법을 바로 무선 이어폰에서 찾았습니다. 무선 이어폰을 단순한 음향기기가 아닌, 웨어러블 기기와 스마트 스피커 등과의 연계를 통해 다양한 시너지를 낼 수 있는 핵심 요소로 여기고 있습니다.

무선 이어폰은 사람이 커뮤니케이션 할 때 가장 중요한 요소인 귀와 입에 가장 가까이 위치한 기기라는 특징이 있습니다. 음성으로 명령을 내리면 손과 눈이 자유로워집니다. 게다가 거추장스러운 선이 없어지면서 사용자의 활동 반경이 넓어졌습니다. 이 때문에 무선 이어폰은 사용자의 자유로운 행동이 가능한, 새로운 인터페이스에 가장 적합한 기기로 떠올랐습니다.

앞으로는 무선 이어폰이 스마트 스피커의 역할을 이어받아 집 밖에서도 다양한 인공지능 기반 서비스를 제공할 수 있습니다. 스마트폰을 꺼내지 않아도 무선 이어폰으로 인공지능을 불러 전화를 걸거나 음악을 재생할 수 있습니다. 길 안내나 실시간 통역과 같은 새로운 기능을 직접 스마트폰조작없이 무선 이어폰을 통해서 사용할 수 있습니다. 무선 이어폰을 통해 사용하기 편리한 ‘인공지능 개인 비서’ 시대가 열린 것입니다.

음성인식, 인공지능의 결합으로 무선 이어폰은 향후 스마트폰의 역할을 상당 부분 대체할 것입니다. 애플의 에어팟을 필두로 무선 이어폰의 보급이 빠르게 늘어나고 제품도 다양화함에 따라 경쟁도 점차 치열해지는 모습입니다. 최근 출시되는 무선 이어폰 시장은 구글, 애플, 아마존을 비롯해 중국 및 유럽 등 글로벌 IT 기업이 뛰어들어 인공지능이 가능한 무선 이어폰을 내놓고 있습니다.

아마존과 구글 등이 무선 이어폰에 주목하는 이유는 무선 이어폰이 스마트폰은 물론 집안의 PC와 TV, 각종 웨어러블 기기를 제어할 수 있는 ‘인터페이스’ 역할을 담당할 것으로 여기기 때문입니다.

무선 이어폰은 앞으로 인공지능과 사용자를 연결하는 중요한 ‘연결고리’가 될 가능성이 큽니다. 앞으로 사물인터넷(IoT) 시대에는 주변의 모든 기기에 음성으로 명령을 내릴 수 있게 될 것이고, 이를 전달하는 역할은 내 몸에서 가장 가까운 무선 이어폰이 될 가능성이 큽니다.

미래 기술 중심에는 음성인식이 있다

몸에 착용하는 IT 기기를 흔히 ‘웨어러블(Wearable)’기기라고 합니다. 이제 무선 이어폰과 같은 기기는 ‘히어러블(Hearable)’기기라고 부를 수 있습니다. ‘음성’이 인공지능 시대의 새로운 유저 인터페이스(UI, User Interface)가 되면서 음성인식 플랫폼을 통해 다양한 서드파티 애플리케이션이 만들어지고 있습니다. 음성으로 할 수 있는 다양한 게임과 퀴즈, 엔터테인먼트 콘텐츠, 교육용 프로그램이 출시되고 있습니다.

스마트폰에 입력하는 인터페이스는 점차 사라질 전망입니다. 사용자가 스마트폰에서 검색하고 정보를 확인하는 행동과 소비하는 시간을 음성인식과 무선 이어폰이 바꿔 놓을 것입니다.

음성인식 생태계는 스마트 스피커를 기점으로 집 안에서 구축되었으나, 무선 이어폰과 같은 히어러블 기기를 통해 집 밖으로 확장하고 있습니다. 집안과 집 밖의 경계 역시 점차 허물어질 것으로 보입니다. 무선 이어폰이라는 접점을 통해 인공지능, 스마트폰, TV, 냉장고 등을 연결하는 새로운 생태계가 만들어지고 있습니다.

글 l 윤준탁 l IT 저널리스트

블로그

내 귀에 AI 비서! 지금은 ‘히어러블(Hearable)’ 시대

음성인식 인공지능의 발전

음성인식 대중화의 시작, 인공지능 스피커

새로운 음성인식 기술의 대세, 무선 이어폰

미래 기술 중심에는 음성인식이 있다

관련 아티클