-
블로그 듣고, 맡고, 맛본다! 인간의 감각을 배우는 AI
신체의 감각수용기 종류로 분류한 시각, 청각, 후각, 미각, 촉각의 다섯 가지 감각을 ‘오감’이라고 말합니다. 시각은 망막, 청각은 달팽이관, 후각은 비점막, 미각은 혀, 촉각은 피부가 수용기이죠. 과거부터 컴퓨터 과학 분야에서 시각과 촉각은 중요한 연구 대상이었습니다. 시각은 인간의 모든 감각수용기 중 약 70%가 눈에 있는 만큼 가장 중요한 감각으로 꼽히기 때문입니다. 인간이 컴퓨터와 원활하게 상호작용하려면 인간이 보는 것을 컴퓨터도 똑같이 보고, 인지할 수 있어야 했으니 말입니다. 촉각의 경우도 비슷합니다. 촉각의 전달 속도는 70m/s로 매우 빠르고, 빛이나 소리처럼 공중으로 확산해 정보를 퍼뜨리는 속성이 없어서 촉감의 재현으로 컴퓨터가 인간과 상호작용하는 방법은 지금도 널리 사용되고 있습니다. 그렇다면 청각, 후각, 미각은 어떨까요? 인간의 감각을 재현하는 기술은 수십 년 동안 개발됐습니다. 그러나 기술력이 뒷받침되지 못했고, 효용성도 찾기 어려웠습니다. 그리하여 그나마 상호작용에 즉각적으로 활용할 수 있는 시각과 촉각에 거의 모든 연구가 집중됐습니다. 실제로 컴퓨터 인터페이스는 인간의 시각을 기준으로 발전했습니다. 그나마 청각이 시각 다음으로 많은 정보를 전달하는 감각이기에 인터페이스로서 가능성을 볼 수 있었던 거죠. 다만, 전통적인 음성 인식 기술은 특정 음향 신호를 처리하는 단계에 머물렀습니다. 예를 들어, 들리는 노래를 찾아주는 샤잠(Shazam)과 같은 앱은 노래를 정확히 마이크에 인식시킬 수 있는 환경에서는 정확히 노래를 찾지만, 시끄러운 환경에서는 섞인 여러 소리를 구분할 수 없어서 곡을 찾지 못합니다. 인간은 여러 소리가 섞인 환경이라도 필요한 소리를 집중해서 듣고, 찾아서 상호작용할 수 있죠. 서울대 음악오디오연구실 출신들이 모여서 설립한 스타트업 ‘코클(Cochl)’은 비언어적 소리에 인공지능(AI) 기술을 결합한 딥러닝 기계 청각 시스템 (Machine Listening System)을 개발합니다. 보통 컴퓨터 분야에서 청각은 인간과 상호작용하기 위한 수단으로 연구되는 탓에 사람의 목소리와 언어를 컴퓨터가 인지하게 하는 기술에 초점을 두고 있습니다. 반면, 코클은 기침 소리, 문 여는 소리, 자동차 소리처럼 비언어적 소리에 집중합니다. 실제 인간이 상호작용하는 데에 언어만 사용하지 않기 때문입니다. 가령 잦은 기침 소리는 목이 건조하거나 실내 공기가 좋지 않다는 신호일 수 있습니다. 기침이 지속되는 걸 감지하여 가습기와 공기청정기를 자동으로 작동하고, 질병 우려가 있을 수 있으니 실내 온도를 높일 수 있을 겁니다. 회사에 따르면, 현재 일상생활에서 들리는 약 40가지 소리를 감지할 수 있습니다. ‘코클 센스(Cochl.Sense)’는 소리의 상세 식별을 전달하는 솔루션으로 AI가 소리를 분석하면 어떤 소리를 들었는지 인간이 확인할 수 있게 알려줍니다. 이로써 주변에 어떤 상황이 벌어졌었는지 혹은 지금 무슨 일이 벌어지고 있는지 파악할 수 있습니다. ...