우리는 매일 여러 방법으로 수많은 사람, 사물과 소통합니다. 만나서 직접 이야기를 하거나, 문자나 메신저, 채팅을 통해 이야기를 나눕니다. 심지어 컴퓨터와 프로그래밍 언어를 통해 소통합니다. 소통을 위해 글씨를 쓰기도 하고 수화 같은 몸짓으로 표현하기도 합니다.
일반적으로 사람은 언어라는 매개체를 통해 소통합니다. 전 세계적으로 매일 약 7,000개에 달하는 언어가 사용됩니다. 더욱 놀라운 사실은 7,000개의 언어는 역사적으로 알려진 언어의 1/4 정도밖에 되지 않는다는 것입니다. 약 3만 개 이상의 언어가 사용됐는데, 지금까지 3/4에 해당하는 언어가 사라졌고 앞으로도 언어는 계속 소멸할 것으로 예상합니다.
그렇다면 이미 사라진 과거의 언어는 어떻게 해석할 수 있을까요? 혹은 우리가 지금까지 확인할 수 없었던 언어를 해석하고 커뮤니케이션할 수 있는 방법은 없을까요? 이러한 궁금증을 풀고, 편리하고 더 나은 방법을 제시하기 위해 인공지능이 활약하기 시작했습니다.
암호 해독에서 시작한 인공지능
영화 ‘이미테이션 게임, 2014’에서 영화배우 베네딕트 컴버배치는 2차 세계대전 당시 독일군의 암호를 해독하는 앨런 튜링 역을 맡아 보여줍니다. 튜링 테스트로 널리 알려진 앨런 튜링은 최초의 컴퓨터이자 암호 해독 장치를 만들어 독일군의 암호 ‘에니그마’를 해독해 전쟁을 승리로 이끄는 데 큰 공헌을 합니다.
암호는 일반적인 언어를 해독이 불가능한 상태로 변형합니다. 암호는 상대방과 비밀리에 의사소통을 하기 위한 수단이며, 일종의 비밀 언어라고 볼 수 있습니다. 앨런 튜링은 이러한 암호를 해독하려는 방법과 장치를 고안한 것인데, 당시 에니그마를 해독하기 위해서는 인간이 하나씩 계산할 경우 수천만 년이 걸리는, 사실상 불가능에 가까운 일이었습니다.
앨런 튜링의 암호 해독 장치는 빠르게 이 작업을 수행했습니다. 마치 지금의 인공지능처럼 사람이 일일이 오랜 시간을 걸려 해야 가능한 일을 컴퓨터가 순식간에 해내는 일과 같았습니다. 기계가 스스로 저장 공간에 저장된 기호들을 읽고 처리한 후, 그 상태에 따라 다른 상태로 전환이 가능하면, 스스로 연산을 처리할 수 있을 수 있다는 점을 증명해냈기 때문입니다. 앨런 튜링의 암호 해독은 인공지능으로 언어를 다루고 의사소통할 수 있는 최초의 시작점이라 볼 수 있습니다.
고대 언어를 읽기 시작하다
암호 해독은 실존하는 언어를 다른 형태로 변형한 것이지만, 인공지능은 이제 실존하지 않는 과거의 언어를 읽기 시작했습니다. 수천 년 전의 이집트 고대 문자, 고대 그리스어, 고대 인도어 등 고대 언어를 학습하고 이해하는 시도가 이어지고 있습니다.
구글은 올해 7월 고대 이집트 상형문자를 번역할 수 있는 번역기 ‘파브리시우스(Fabricius)를 공개했습니다. 모바일 앱과 데스크톱 버전으로 제공되는 번역기는 상형문자를 번역하고, 사용자가 친구에게 전하고 싶은 말과 이모티콘 등을 상형문자로 바꿔줍니다. 파브리시우스는 가볍게 재미로 사용할 수도 있지만, 실제 연구에 기여할 수 있습니다. 사용자가 상형문자 사진을 업로드하면 이는 수집 데이터가 되고, 신경망 구조의 인공지능이 학습을 진행합니다.
기존에는 상형문자 전문가가 오랜 시간 동안 수작업으로 진행했던 부분을 디지털로 옮긴 것입니다. 구글은 구글 클라우드 내 자동 머신러닝 비전(Auto ML Vision)을 통해 시간을 단축했다고 밝혔습니다. 상형문자를 이해하는 학습 모델은 데이터가 쌓임에 따라 계속해서 진화하고 있습니다.
이집트 상형문자는 물론 다른 고대 언어를 읽기 위한 여러 시도가 진행되고 있습니다. 미국 시카고 대학 연구진은 고대 왕조인 페르시아 아케메네스 제국(기원전 550년~330년경)의 점토 문자판을 읽는 시스템을 개발했습니다.
점토 문자판은 일반적으로 수작업으로 판독을 진행해왔습니다. 시간이 오래 걸리는 것은 물론 실수로 잘못 판독하는 경우도 잦았습니다. 이를 디지털화하기 위해 컴퓨터와 카메라를 활용했지만, 점토 문자판의 문양이 복잡하고 점토판에 기록되어 이를 인식하는 수준이 낮았습니다. 연구진은 점토 문자판 이미지를 머신러닝 학습을 통해 판독이 가능한 인공지능 모델을 개발했습니다.
최근 알려진 연구 중 가장 주목을 받았던 연구는 MIT 컴퓨터 과학, 인공지능 연구소(CSAIL, Computer Science and Artificial Intelligence Laboratory)가 공개한 머신러닝 알고리즘 기술입니다. MIT 연구소는 시리아 지중해 연안에 위치했던 고대 도시국가 우가리트의 쐐기 문자인 우가리트어(Ugaritic)와 미케네 문명의 선형문자 B(Linear B)를 읽어내는 데 성공했습니다.
기계 번역의 주요 아이디어는 언어에 관계없이 단어가 비슷한 방식으로 서로 관련되어 있다는 것을 이해하는 것입니다. 따라서 이러한 과정은 특정 언어에 대한 관계를 매핑(Mapping) 하는 것에서 시작합니다. 이를 위해서 방대한 텍스트 데이터가 필요하며, 텍스트를 검색해 각 단어가 얼마나 다른 단어 옆에 위치하는지를 확인합니다. 이 모양의 패턴은 다차원 매개 변수 공간에서 단어를 정의하는 고유한 서명입니다. 사실, 단어는 이 공간 내의 벡터로 생각할 수 있습니다.
핵심은 다른 언어의 단어가 각각의 매개 변수 공간에서 동일한 지점을 차지한다는 것입니다. 다른 언어의 단어들이 어디에 위치해 있는지를 확인하고 빈도 수를 감안하면, 일대일 대응으로 전체 언어를 다른 언어로 매핑할 수 있습니다.
기계는 단어나 문장이 의미하는 바를 이해할 필요가 없습니다. 비슷한 언어를 제대로 매핑하고 패턴을 찾아내기만 하면 됩니다. 이 모델에서 사용한 알고리즘은 RNN(Recurrent Neural Network)의 일종인 Long Short-Term Memory models(LSTM)를 활용했습니다.
역사적으로 언어학의 특징은 언어 변화가 규칙적이고 일관된 방식으로 일어난다는 점을 알려줍니다. 연구진은 이러한 특징을 고려해 고대 언어와 알려진 언어 사이에 얼마나 많은 일치가 일어나는지, 특정한 패턴이 존재하는지를 인공지능 학습을 통해 알아내려고 노력했습니다.
고대의 언어와 알려진 언어를 매칭하면서 정보가 누락되지 않고 계속 이어질 수 있도록 언어 간의 유사성과 일치성을 지속해서 학습했습니다. 결과적으로 인공지능은 이미 사람이 해독을 완료한 고대 언어인 선형문자 B를 67.3% 해독했습니다. (물론 선형문자 B는 사람이 해독하는데 수십 년이 소요된 언어입니다.)
기원전 1800~1400년대의 미노아 문명에서 사용된 선형문자 A(Linear A)는 아직 해독되지 않았습니다. 선형문자 B는 선형문자 A의 영향을 받아 발전했기 때문에 이를 학습하면 선형문자 A도 언젠가 인공지능이 해독하는 날이 올 수 있습니다. 사람이 해독할 엄두도 낼 수 없는 선형문자 A 해독은 지금 개발한 모델을 활용하면 오랜 시간 언어의 대입과 대조를 통해 해독이 가능할 수 있을 것으로 보입니다.
이집트 상형문자, 고대 선형문자 외에도 4,000년 된 인도의 고대 언어인 산스크리트어를 읽어 내기 위한 딥러닝 모델도 개발 중입니다. 산스크리트어의 단어 데이터를 수집해 이를 종류에 따라 분리하고 매칭하는 도구가 개발됐습니다. 이 밖에 수많은 고대 언어 데이터를 수집 중인 연구진들이 있으며, MIT와 같은 대학과 구글, 페이스북 등이 이를 추진하고 있습니다.
언어는 아니지만 비슷하게 고대인이 남긴 그림을 인공지능으로 해석한 사례도 있습니다. 일본 야마가타 대학 고대 문명 연구진은 페루 나스카 평원 일대의 지상화를 인공지능으로 찾아냈습니다. 기원전 100년~서기 500년경 나스카인들이 만든 것으로 추정되는 그림들은 다양한 형태를 띠고 있는데, 인공지능은 이미지 데이터를 학습해 고대인들이 만든 그림과 문자를 찾아냅니다.
미래를 위한 과거 언어와의 만남
인공지능은 이러한 언어 관련 프로젝트에 가장 큰 장점, 즉 속도를 제공합니다. 대부분 인공지능은 언어 번역과 관련해 인간 언어학자의 작업을 도와 속도를 향상할 수 있습니다. 또한, 이러한 종류의 프로젝트 비용을 절감할 수 있습니다. 인터넷과 컴퓨터를 사용해 전 세계에 흩어져 있는 방대한 자료를 모아 전 세계 학자들이 이용할 수 있습니다.
그러나 문자의 뜻을 알기 어려울 정도로 오래된 언어를 해독할수록 알고리즘 학습에 사용할 수 있는 데이터가 부족할 수밖에 없습니다. 지금까지는 인공지능 학습에 고대 언어 데이터가 사용됐지만, 향후 핵심은 고대 언어 데이터 없이도 해독 작업이 가능할 것인가에 달려있습니다.
오늘날에도 언어는 놀라운 속도로 소멸하고 있습니다. 멸종 위기에 처한 언어를 사용하는 사용자는 고유한 언어와 문화를 다음 세대에 전수하기 위해 이제 시간과의 경쟁에서 기술로 전환하고 있습니다. 예를 들어, 뉴질랜드 원주민 마오리족의 언어 ‘마오리어(티 리오)’는 IBM 왓슨의 인공지능 챗봇을 통해 배울 수 있습니다. 페이스북 챗봇도 마오리어 언어를 이해하고 대화할 수 있습니다.
이러한 노력은 단순히 언어를 복원하고 보존하는 것에 그치지 않습니다. 인공지능은 언어 간의 상관관계를 파악하고, 새로운 언어를 학습하면서 끊임없이 진화합니다. 이 과정에서 탄생한 알고리즘과 관련 기술은 실시간 번역은 물론, 자연어 처리 및 텍스트 분석 등 다양한 분야에 활용할 수 있습니다.
인공지능은 인류가 잃어버린 언어를 복원하는 동시에 우리가 지닌 언어들을 영원히 잃어버리지 않도록 도와줍니다. 고대 언어를 해독하고 복원하는 일은 과거의 역사를 알아내거나 학문적인 성과만을 위한 일이 아닙니다. 인공지능은 과거의 사라진 언어 학습하고 읽으면서 미래에도 사라져갈, 수많은 언어를 지키는 데 큰 도움이 될 것입니다.
글 l 윤준탁 l IT 저널리스트