디자이너의 인공지능(AI) 활용 도전기

인공지능에 대한 글을 쓰면서도, 인공지능이 글을 써주면 좋겠다는 생각이 들더군요. 글을 쓰겠다 받아놓고 쓰기 시작한 지 두 달이 넘었지만, 그만큼의 진도를 나가지 못하고 있었습니다. 계속 늦어지는 원고 기고에 완성되지 않은 글을 내놓는 것도 부담이었죠.

어느 순간부터 인공지능이 뜨거운 감자로 떠오르면서, 자연스레 언론에서도 많은 이야기가 다루어지게 되었습니다. 그러다 보니 유의미한 정보를 전달하고자 글에 공을 들이면 상황이 변하고 썼던 내용과 핵심이 지속적으로 달라지는 현상이 반복되었는데요. 그만큼 이 분야가 하루가 다르게 변하고 있다는 것이겠지요.

두 달의 짧은 시간 동안 아마존 알렉사(Amazon Alexa), 구글 어시스턴트(Google Assistant), 네이버 클로바(Clova), IBM 왓슨(Watson), SK 에이브릴(Aibril) 등 다양한 플랫폼을 접하게 되었습니다. 인공지능과 IoT 기반의 램프도 제작했고, 메이커톤에 참가하여 대화형 선풍기도 제작했습니다. 왓슨(Watson)과 구글 어시스턴트(Google Assistant) 플랫폼 기반의 대화형 챗봇 프로그래밍도 경험할 수 있었습니다.

지난 몇 달간 접했던 인공지능은 지금까지 제가 경험했던 많은 기술과 상당히 다른 점들이 있었습니다. 기술적인 난이도를 제하더라도, 인공지능 플랫폼이 어떤 방식으로 움직이고 어떻게 사용해야 하는지에 대해 여러 가지 생각을 하게 됐는데요. 새로운 기술을 어떻게 사용해야 할 것인가에서부터 이 내용을 어떻게 교육해야 할 것인가까지 다양한 고민이 있었습니다.

짧은 두 달의 시간에도, 피상적으로 알던 인공지능에 대한 관점에 드라마틱한 변화가 있었습니다. 인공지능은 다양한 용도와 기능이 있지만, 이번 글에서는 디자이너로서 제가 직접 경험한 대화형 인공지능을 처음 만나 활용하게 된 경험과 그 과정에서 얻어진 생각을 이야기해 보겠습니다.

인공지능과의 첫 만남

2001년쯤, 스티븐 스필버그 감독의 영화 ‘AI(Artificial intelligence)’를 봤습니다. 스필버그 감독은 미래에 대한 유려한 비주얼과 깊이 있는 주제를 다루는 감독으로 유명한데요. 사실, 그 영화의 내용에 대해서는 큰 기억이 없지만, 영화 홍보 사이트는 생생하게 기억하고 있습니다.

영화홍보 사이트에는 영화 내용 소개와 함께 흰색 배경에 챗봇 대화 페이지가 있었습니다. 채팅창에 질문을 입력하면, 상당히 자연스럽게 대화를 이어나갈 수 있었습니다. 이름, 성별, 나이 등을 물었고 챗봇이 했던 답을 정확하게 기억하진 못하지만, 사람과 대화하는 것과 상당히 유사했던 것으로 기억합니다. 이것이 챗봇과의 첫 만남이었습니다. 그리고 17년이 지난 지금 음성인식 기반의 챗봇은 우리 곁에 더욱 다가와 있습니다.

시리(Siri)의 등장

애플의 시리가 생활에 어떤 변화를 가져왔는지 다시 한번 생각해 봤습니다. 피처폰에서 스마트폰으로 바뀌면서 만들어진 변화에 비하면, 그렇게 큰 변화는 아닐 것입니다. 시리와 S보이스 등을 시작으로 음성인식 서비스를 많은 사람이 사용할 수 있었던 것은 맞습니다. 하지만 실사용자 수는 그리 많지 않았고, 이는 서비스의 한계를 반증하는 것이었습니다. 저도 처음엔 낮은 인식률과 대화 패턴에 대한 이해 부족으로 사용이 어려웠습니다.

그러나 시간이 지나면서 음성 인터페이스 서비스의 사용이 늘어나게 되었는데요. 특히 운전할 때 전화를 하거나, 문자를 보낼 때와 같은 특정 상황에서 음성인식 기능은 상당히 편리하게 사용하고 있습니다.

하지만 여전히 음성인식은 완벽하지 않기 때문에 잘 알아듣기 위해서는 대화 단어 선택이 중요합니다. 그런데도 사용하다 보면 오류나 오작동을 줄이기 위해 어떤 단어를 선택해야 할지 고민하는 순간이 옵니다.

음성인식의 문제는 인공지능이 무엇을 할 수 있고, 할 수 없는지 직접 눈으로 확인하기 어렵다는 것입니다. 내가 말하는 것이 될지 안 될지 알 수가 없죠. 또 특정 기능을 입력했는데 작동이 안 될 경우, 그 기능 자체가 사용할 수 없는 것인지, 음성 입력의 오류인지도 알 수 없습니다.

인공지능 스피커와 새로운 플랫폼

2017년에 아마존 알렉사를 구입했습니다. 가격이 비싸지 않아 가장 저렴한 것으로 2개나 구입했는데요. 하나는 집에서, 또 하나는 연구실에서 사용할 예정입니다. 인공지능 스피커를 중심으로 다양한 하드웨어를 연결하여 다양한 자동화를 시도해보고자 했습니다.

결론부터 말하자면, 알렉사는 현재 사용해본 모든 대화형 시스템에서 음성 인식률이 가장 높습니다. 연구실의 어느 위치에서나 정확하게 반응합니다. 그러나, 설치하고 며칠 동안은 열심히 사용했지만 결국 생각만큼 잘 사용하지 않고 있습니다. 영어로 무엇을 말한다는 것도 약간은 번거로운 일이지만, 실질적으로 한국에서 사용할 수 있는 기능들이 많지 않았기 때문입니다.

우리나라에서 아마존의 다양한 서비스를 충분히 사용할 수 없다는 것도 문제지만, 여러 가지 기능과 서비스를 설정하고 사용하는 일도 상당히 번거롭기 때문입니다. 음성으로 불을 켜거나 음악을 플레이하는 것은 상당히 좋은 기능입니다. 하지만 인공지능 스피커의 최대 단점은 눈으로 볼 수 있는 인터페이스가 없다는 것입니다.

무엇보다 눈으로 빠르게 현재 상태를 인지하고 다음 단계에 무엇을 할 수 있는지 눈으로 볼 수 없기 때문에 스마트폰과 같은 수준의 사용성을 기대하기 어렵습니다. 음성 인터페이스는 소리에 의존하기 때문에 시각적 인터페이스보다 복합적인 기능구현이나 피드백이 어렵다는 단점도 있습니다. 따라서 그에 맞는 새로운 용도와 사용 방법에 대한 연구가 필요할 것으로 보입니다.

아직은 인공지능 서비스가 영화 그녀(Her. 2013)에서 보았던 것처럼, 모든 것을 사람처럼 해결할 수 있는 존재로 보이지는 않습니다. 하지만, 서비스를 제공하는 기업들은 빠른 속도로 인공지능을 학습시키고 있으며, 서비스를 확장하기 위해 새로운 개발 툴을 공개하고 있습니다.

테크 크런치에 따르면 올해 2월에 10,000개의 스킬이 등록되었고 지난 7월 15,000개가 등록되었다고 합니다1. 이처럼 인공지능 스피커의 스킬도 스마트폰 앱스토어같이 빠른 속도로 발전하고 있습니다.

l 아마존 알렉사의 사용가능한 스킬
(출처: https://www.amazon.com/gp/browse.html?node=13727921011)

사물인터넷, IFTTT, 인공지능

얼마 전 유튜브에서 아마존 에코를 사용해 오픈소스로 제작된 램프를 음성으로 조작하는 영상을 보았습니다. 인공지능 스피커로 램프 조작이 가능할 뿐만 아니라 다양한 방식으로 기능을 콘트롤 할 수 있습니다.

개인적으로 UX 교육에서는 프로토타입을 기반으로 새로운 기술을 직접 경험하는 것이 매우 중요하다고 생각합니다. 그렇기 때문에 아마존 에코의 음성인식 램프 제작을 직접 시도해 보았습니다. 아두이노와 같은 오픈소스 하드웨어를 사용해 램프를 만드는 것은 크게 어려운 일은 아닙니다.

3D 프린터로 형태를 출력하고 아두이노와 유사한 사물인터넷(IoT) 보드 파티클 포톤(Particle Photon)을 사용했습니다. 램프의 형태를 디자인하고 3D 프린터로 만드는 과정은 시간이 좀 걸리긴 했지만, 생각보다 어렵진 않았습니다.

아두이노 보드에 LED를 연결하고 간단한 회로를 구성하여 네트워크에 연결하면 되는 일이기 때문에 기존의 사물인터넷 제작 방식과 크게 다르지 않았습니다. 클라우드 서비스와 연결하여 사물인터넷을 구성해 보신 분들은 어렵지 않게 제작할 수 있으실 겁니다.

음성인식 인공지능은 단순히 챗봇만이 아니라 하드웨어를 작동하거나 대화형으로 조작할 수 있습니다. 지금까지는 아두이노와 3D 프린터를 활용한 사물인터넷의 프로토타입 제작에 불과했지만, 인공지능 스피커는 기존의 하드웨어에 새로운 조작방식을 더하는 것이기 때문에 앞으로 다양하게 활용할 수 있을 것으로 보입니다.

이러한 것이 가능할 수 있었던 것은 IFTTT와 같은 자동화 서비스 플랫폼과 클라우드서비스 덕분입니다. IFTTT는 여러 가지 서비스와 하드웨어의 복합적인 기능을 하드코딩 없이 위젯으로 설정하여 자동화할 수 있는 플랫폼입니다.

우연한 기회에 알게 되어 지금까지 몇 년째 사용하고 있습니다. 예를 들어 스마트폰 주소록에 새로 등록된 전화번호를 구글 드라이브로 저장한다거나, 핏빗(피트니스 밴드)의 운동 데이터를 구글 문서로 자동으로 저장해 주는 기능을 설정해 사용하고 있습니다. 그 외에도 다양한 온라인 서비스와 하드웨어를 복합적으로 연결하여 다양한 자동화 기능을 구현할 수 있습니다.

하드웨어 제작 이후 알렉사와 램프의 연결은 1시간이 채 걸리지 않았습니다. 위의 그림과 같은 설정 창에 입력할 음성명령을 입력하고 연결된 디바이스의 기능을 연결해주면 인공지능 스피커가 램프를 켜고 끄는 조작을 할 수 있습니다.

인공지능으로 조작하는 램프는 제작이나 설정이 크게 어려운 것은 아니었지만, 실제로 집에서 사용해 보니, 아이들과 부모님께서 여러 가지 사용상의 문제를 지적하게 되었습니다. 가족들의 영어 발음을 알렉사는 알아듣지 못했고, 결국 램프의 LED는 음성 지시가 아니라 전원코드를 빼서 꺼지게 되었습니다.

인공지능 플랫폼은 IFTTT를 통해 여러 가지 서비스들과 결합을 하고 있으며, 사용 범위가 빠르게 확장되고 있습니다. 그뿐만 아니라 동시에 여러 플랫폼과 하드웨어를 사용할 수 있기 때문에 코딩 없이도 여러 가지 기능을 구현할 수 있습니다. 하지만 기능을 사용할 수 있다고 해서 그것이 우리의 실생활에서 잘 활용될 수 있는 것은 아닙니다.

최근 등장하는 플랫폼들은 다양한 아이디어를 빠르게 프로토타입으로 제작하고 실험할 수 있는 환경을 제공하고 있습니다. 따라서 새로운 기술을 가장 빠르게 학습할 방법은 기술을 직접 구현해 보는 것입니다.

인공지능으로 만들다.

얼마 전 팹랩 서울에서 주최하는 인공지능 기반의 메이커톤에 참가하게 되었습니다. 지금까지 인터넷에서 보아왔던 글들을 보면, 인공지능을 만들기 위해 파이썬과 같은 프로그래밍 언어로 복잡한 코드를 작성하고 학습을 위한 데이터를 만들어야 하기 때문에 디자이너로서 인공지능을 직접 제작하고 활용하는 것을 상상할 수 없었습니다.

하지만 이번 메이커톤은 한글화된 왓슨(Watson) 플랫폼의 여러 가지 서비스를 사용하여 제품이나 서비스 아이디어를 구현하는 것이었습니다. 메이커톤은 보통 24시간의 한정된 시간에 구상한 아이디어를 빠른 속도로 제작하여 아이디어의 실행 가능성을 데모로 보여주는 행사인데요. 최종 개발까지는 아니지만, 아이디어가 실질적으로 구현할 수 있는지 빠른 속도로 실험할 수 있습니다.

저는 디자이너이자 하드웨어 개발자로 참여하여, 컴퓨터공학과 대학생 3명과 기획자 1명으로 팀이 되었습니다. 우리 팀의 아이디어는 더운 여름 자취방에서 혼자 지내는 대학생을 위해 목소리로 풍량이나 방향을 제어할 수 있는 선풍기를 만드는 것이었습니다.

‘더워’라고 말하면 켜지고, 잠결에 ‘추워’라고 말하면 꺼지는 상당히 단순한 기능을 구현하고자 했습니다. 이런 기능을 구현하기 위해 왓슨(Watson)의 컨버세이션(Conversation), 스피치 투 텍스트(Speech to text), 텍스트 투 스피티(Text to Speech)를 사용하였습니다.

인공지능을 학습시키는 일은 너무나 어려운 일이었습니다. 서비스 플랫폼의 입장에서 시스템을 쉽게 사용할 수 있도록 만들었다고 하지만, 인공지능이 이해할 수 있는 의도(Intent)와 실재 언어(Entity)의 상관관계를 이해하는 것도 어려웠습니다. 어떤 상황에서 어떻게 언어적으로 대응해야 하는 대화를 만드는 것도 상당히 까다로운 일이었습니다.

이를 위해 인터넷과 유튜브에 있는 자료와 데모들을 열심히 검색하고 찾아보기도 했지만, 제대로 된 인공지능과의 대화를 만드는 일은 상당한 시간이 필요한 일이었습니다. 인공지능을 프로그래밍하고 피드백을 받는 일도 쉽지 않았습니다.

인공지능의 시스템을 이해하는 것도 쉽지 않았지만, 인공지능 엔진과 기존의 하드웨어를 결합하는 것도 상당한 시간이 필요했습니다. 선풍기의 외형을 제작하는 데 큰 어려움은 없었지만, 인공지능 시스템이 다양한 하드웨어와 플랫폼을 지원하기 때문에 원하는 기능을 구현하기 여러 가지 하드웨어를 테스트했습니다. 아두이노(Arduino), 파티클포톤(Particle Photon), 라즈베리 파이(Raspberry Pi)등 다양한 하드웨어를 24시간 동안 모두 테스트하게 되었습니다.

결국 여러 시도 끝에 종료 1시간 전에 원하는 결과를 얻게 되었습니다. 하지만, 애석하게도 동작이 되는 동영상 3클립을 촬영한 후 라즈베리 파이의 메모리카드 고장으로 지금까지 했던 모든 결과물은 사라지게 되었습니다.

인공지능 시스템을 이해하는데 가장 어려웠던 부분은 음성인식의 프로그램 구성 단계였습니다. 우리에게 간단한 대화를 구성하기 위해 대화의 의도인 인텐트(Intent), 대화에 나올 수 있는 유사언어인 엔티티(Entity)를 구성해야 했습니다. 인공지능의 학습이라 불리는 것은 바로 대화의 내용과 의도에 대한 입력값을 말하는 것이었습니다.

인공지능의 학습은 지금까지 프로그래밍에서 이해했던 생각의 흐름과 상당히 다른 구성을 가지고 있었기 때문에 간단한 대화를 만드는 일도 상당히 복잡하고 어렵게 느껴졌습니다.

l 학생 프로젝트 (김진경, 김재웅)
(좌) 왓슨 컨버세이션 다이얼로그 설정창, (우) 왓슨 컨버세이션 다이얼로그 테스트 창

메이커톤을 진행하는 동안 인공지능이 어떻게 대화하고 반응하는지 개념을 이해하는 것이 가장 어려웠습니다. 튜토리얼이나 샘플 자료를 보고 하나하나 직접 실행하는 과정의 시간도 문제였지만 제작된 결과물이 제대로 작동하는지 아닌지를 테스트하는 것도 시간이 많이 소요되는 일이었습니다.

새로운 일을 경험하는 것이 어려운 것은 단순히 새로움과 낯섦 때문만은 아닙니다. 처음 해보기 때문에, 시도하는 것이 제대로 구현될 것인가에 대한 막연한 두려움이 있습니다. 두 달 정도의 길지 않은 시간이었지만, 인공지능이란 화두는 지금까지 접해본 많은 기술 중에 가장 어렵고 복잡한 것이었습니다.

플랫폼에서는 다양한 툴을 제공하고 있기 때문에 쉽게 인공지능을 개발할 수 있다고 하지만 새로운 것을 만들기 위해서 이해해야 할 것들이 너무나 많았습니다. 지금까지 크게 신경 쓰지 않았던 사람들의 대화 순서와 방식을 고민하게 되었고, 내가 하는 말이 어떤 의미와 패턴을 가지고 있는지 꼼꼼하게 생각해야 했습니다.

물리적 버튼 없이 말로 기기를 조작하는 인터페이스의 다양한 문제를 경험해 보았으며, 하드웨어와 소프트웨어가 어떻게 인공지능과 연결되어야 하는지 기획, 제작, 코딩의 전 과정을 구현해 보았습니다. UX가 일반화 되는 시점에서, 인공지능의 기술적인 부분을 제하더라도 사람은 다른 사람의 행동에 어떻게 반응해야 하는지, 또 어떻게 대화로 다양한 맥락을 연결해야 하는지 등의 언어적인 문제에 대해 고민해야 했습니다.

여전히 언론이나 기사자료들에서 보면 인공지능이 세상의 모든 문제를 해결할 것처럼 이야기하고 있지만, 실질적으로 인공지능을 학습시키기 위해 어떤 데이터가 필요하고 어떻게 학습시켜야 하는 부분에 대한 고민은 많지 않은 것 같습니다.

저도 여전히 여러 가지 데이터를 수집하고 있지만, 그 데이터를 변형하고 어떻게 학습을 시켜야 하는지에 대한 답은 찾아가는 중입니다. 또, 인공지능의 대화형 서비스를 기획하기 위해 비주얼 부분만이 아니라 대화 자체에 대한 고민도 필요하다는 것을 알게 되었죠.

이제 인공지능은 사람의 뉘앙스에 대한 인식도 가능하기 때문에 우리가 어떻게 인공지능을 학습시키느냐에 따라 우리의 삶에 위협이 되는 무서운 존재를 만들 수도 있고, 즐겁게 이야기할 수 있는 친구를 만들 수도 있을 것입니다. 이번 글을 쓰면서 디자이너로서 교육자로서 인공지능과 함께할 미래에 대한 고민이 더 많아졌습니다.

아직 정확하게 어디서부터 시작해야 할지 갈피를 못 잡고 있지만, 그래도 여러 가지 일을 좌충우돌 시도하고 있습니다. 중요한 것은 다양한 인공지능 플랫폼의 기술을 일단 시도해 보는 것입니다. 처음 접하는 것을 모르는 것은 당연하지만, 시도조차 하지 않는다면 배우는 것도 없을 것이기 때문입니다.

글 | 박진현 교수 | 계원예술대학교

https://techcrunch.com/2017/07/03/amazons-alexa-passes-15000-skills-up-from-10000-in-february/ [본문으로]

블로그