본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

인공지능, 스스로 더 나은 길을 찾다

2017.02.21

지난 수십 년 동안 인공지능은 인간과 대결했습니다. 20년 전에는 IBM이 개발한 체스 컴퓨터 ‘딥 블루(Deep Blue)’가 인간을 이겼고, 2011년에는 IBM의 왓슨(Watson)이 제퍼디 퀴즈쇼의 우승자가 되었죠. 그리고 작년에는 구글 산하 딥마인드(DeepMind)가 개발한 알파고(AlphaGo)가 인공지능을 다시 조명하게 했습니다.

물론, 인공지능이 자신의 의지로 인간들과 대결한 건 아닙니다. 그러나, 우리는 이러한 대결을 척도로 인공지능의 발전을 간접적으로나마 체감할 수 있었는데요. 재미있는 것은 인공지능과 인간과의 대결이 있을 때마다, 수년 안으로 인공지능이 보편적인 기술이 되리라고 전망헀다는 것입니다.

인간에게 도전한 최초의 인공지능

사실 주목할만한 절묘한 시기는 없었지만, 자아가 없이 한정된 명령만 수행하는 ‘약 인공지능(Weak AI)’은 우리 생활 곳곳에 도입됐습니다. 현재의 인공지능은 그저 약 인공지능의 학습과 연산 수준이 딥 블루나 왓슨, 알파고라는 세대를 거치면서 발전한 것입니다. 새롭게 태어난 것이 아니죠. 그러므로 지난해 알파고의 성능을 근거로 ‘올해가 인공지능의 원년이 될 것’이라는 말은 무리가 있다고 볼 수 있는데요. 차라리 ‘알파고 세대의 시작’이라고 말하는 게 더 정확합니다. 그럼 이 알파고 세대라는 것은 어떻게 이해해야 하는 걸까요?

딥 블루는 인간을 이긴 최초의 인공지능으로 알려졌으나, 실상 전 세대인 ‘깊은 생각(Deep Thought)’은 상대 선수인 가리 카스파로프(Garry Kasparov)와의 첫 대결에서는 4게임 중 한 번도 이기지 못하고 패배했습니다. 그리고 1996년에 개선된 딥 블루는 6게임 중 2게임만을 따냈죠. 이후 IBM은 카스파로프의 기보로 알고리즘을 개발했고, 딥 블루는 다음 해인 1997년에 카스파로프를 꺾었습니다.

l 개선된 딥 블루와 카스파로프의 대결(출처: https://www.research.ibm.com/deepblue/)

하지만 해당 경기도 딥 블루가 압승한 건 아니었습니다. 2승 3무 1패로 딥 블루가 가까스로 이긴 것이었죠. 중요한 건 딥 블루가 인공지능이라기보다는, 그 전 단계인 체스라는 게임의 데이터를 처리하는 방법을 보여준 슈퍼컴퓨터라는 점입니다. 특정 게임에 대한 충분한 데이터와 그걸 처리할 수 있는 성능의 컴퓨터만 있다면 컴퓨터가 인간을 이길 수 있다는 화두를 던진 것입니다.

그러므로, 당연히 딥 블루의 방식은 한계가 있었죠. 체스보다 더 복잡한 게임에서 사람을 이기려면 더 성능이 뛰어난 컴퓨터와 많은 데이터가 필요한데요. 그걸 실행할 시간과 자원이 막대하게 소요되고, 실행하더라도 시장에 의미 있는 인공지능이 등장할 수 없었기 때문입니다. 실제로 딥 블루의 가능성을 보고 인공지능 개발에 투자한 사람들이 당시에 많았는데요. 그 당시에는 성공하지 못했습니다.

인공지능의 잠재력은 어디까지 왔을까?

시간이 흘러, IBM은 딥 블루의 가능성을 토대로 2005년부터 왓슨을 개발하기 시작합니다. 왓슨은 인간 수준의 이해력, 데이터에 대한 분석력을 갖추는 것이 목적이었습니다. 제퍼디 퀴즈쇼를 돌이켜 보면서 ‘질문에 맞는 답만 찾아서 제시하면, 무조건 컴퓨터가 이기는 것 아닌가?’라고 생각하는 사람은 아직도 많지만, 핵심은 자연어 처리 기술을 통해서 사회자가 던진 질문을 분석하고, 마땅한 답을 추리하여 검색할 수 있느냐에 있었습니다.

왓슨은 제퍼디 퀴즈쇼에서 인터넷에 연결된 상태는 아니었지만, 200만 건 수준의 문서를 입력한 상태였습니다. 물론 인간의 시선에서 보면 200만 건의 문서를 기억하고, 찾기만 하면 된다는 게 부정행위처럼 보일 법합니다. 그러나 왓슨이 데이터를 저장하는 것보다 질문을 통해서 200만 건의 문서 중 정확한 답을 찾기까지의 과정이 문제였습니다. 고로 퀴즈쇼에서 인간을 꺾은 왓슨은 충분한 데이터만 갖추면 컴퓨터가 향상된 자연어 처리 기능으로 답을 낼 수 있다는 잠재력을 증명했습니다.

이러한 이유로 왓슨이 실제 시장에 도입되기까지 꽤 시간이 필요했습니다. 최근에서야 의료나 법률 분야에서 활용되고 있는데요. 그러나 현재의 왓슨조차 한계는 있습니다. 분석할 수 있는 충분히 정형화된 많은 데이터를 줘야 한다는 겁니다. 논문이나 요리법, 의학 정보, 의료 영상 등 말이죠. 그래서 IBM은 의료 분야에서 더 많은 데이터를 수집하고자 병원, 대학교, 제약사 등과 제휴하고 있으며, 의료 영상 분석 기업인 ‘머지 헬스케어(Merge Healthcare)’를 인수하기도 했습니다.

머지 헬스케어는 인공지능 기술로 영상을 분석하는 회사였고, 분석으로 누적한 의료 영상 데이터를 가지고 있었습니다. 덕분에 왓슨의 성능을 빠르게 향상하는 데 효과적이었습니다.

l 의료 영상 분석 기업 머지 헬스케어(출처: http://www.merge.com/)

알파고의 등장은 꽤 큰 충격이었습니다. 향상된 ‘딥 러닝(Deep Learning)’ 기술로 컴퓨터가 스스로 학습할 수 있도록 한 것인데요. 당연히 딥 러닝 기술의 시작이 알파고인 것은 아닙니다. 그러나 교사 학습을 통해 기본적인 실력을 갖춘 정책망이 서로 대국하게 하는 ‘강화 학습(Reinforcement Learning)’을 진행하여 바둑이라는 게임을 획기적인 속도로 익히게 했다는 것입니다.

알파고라는 쟁점이 던져졌을 때 ‘프로기사의 기보를 학습했다.’라는 말이 나오기도 했지만, 그건 퀴즈쇼에 참가했던 왓슨 세대의 얘기입니다. 그럼 강화 학습이라는 건 무엇일까요?

인공 지능, 강화 학습을 만나다.

강화 학습은 머신 러닝에서 뻗어 나온 것으로, 쉽게 설명하면 ‘보상을 최대한 많이 받는 방법을 학습하는 것’입니다. 교사 학습처럼 명확한 답을 학습하는 게 아니라, 명확하게 증명하기 어려운 상황을 인공지능이 보상에 따라 스스로 결정할 수 있도록 하는 거죠.

딥마인드는 바둑뿐만 아니라 여러 게임이 이 방식을 적용하고 있는데, 예를 들면 아타리 2600 버전 팩맨이 있습니다. 팩맨은 자유롭게 움직이는 유령을 피하여 점들을 먹으면서 점수를 획득하는 게임입니다. 커다란 점을 먹으면 잠깐 유령을 공격할 수도 있죠. 팩맨이라는 게임을 진행하기 위해서 인공지능에 던지는 건 ‘최대한 많은 점수를 획득하라.’입니다. 그럼 컴퓨터는 최고 점수를 달성하는 방법을 익힐 때까지 게임을 반복합니다.

처음에는 유령의 존재를 인식하지 못하여 피하지 않고, 금방 게임이 끝나버리지만, 반복적인 게임으로 유령을 피해야 한다는 걸 깨닫기 시작하죠. 이 차이를 중요하게 생각해야 하는데, 인간은 한 번이라도 유령에 닿으면 다음부터는 유령을 피해야 한다고 금방 인식합니다. 그러나 컴퓨터는 A라는 지점에서 유령에 당하더라도 A에서는 피하지만, B라는 새로운 지점의 유령은 피하지 못합니다. 모든 지점에서 유령을 피해야 한다는 판단을 하려면, 모든 지점에서 유령에게 당해봐야 하는 겁니다.

즉, 운 좋게 모든 지점에서 당하지 않고, 최고 점수에 도달하더라도 다음 게임에서는 당할 여지가 남게 됩니다. 그 여지까지 완벽히 소화할 수 있다면 인공지능은 팩맨을 완벽히 공략할 수 있고, 이는 팩맨 게임을 최고 점수로 해결하는 ‘완전 정보(Perfect information)’라고 할 수 있습니다.

이렇게 심층 신경망이 강화 학습을 할 수 있도록 딥마인드가 개발한 알고리즘이 ‘DQN(Deep Q-Network)’입니다. 딥마인드는 DQN을 통해서 아타리 2600의 모든 게임을 섭렵했습니다. 그리고 다음 대상이 된 것이 바둑이었던 거죠. 이세돌 9단과 겨룰 때 알파고는 바둑을 학습했지만, 아타리 2600 때처럼 완전 정보를 습득한 상황은 아니었습니다. 그래서 승률을 극대화할 수 있는 수라고 판단했으나 인간에게는 실수처럼 보인 수를 두기도 하고, 승리할 확률이 낮다고 판단하여 4국에서는 불계패를 선언했습니다.

덕분에 ‘인공지능이 실수할 수 있다면, 의료 분야 등에서 실수했을 때 혼란이 생기지 않을까?’하는 물음이 던져졌고, 4국 이후 NHK는 기자회견에서 질문하기도 했습니다. 인공지능의 도입을 바라본다면 적절한 질문이긴 합니다. 단지 알파고는 학습한 완전 정보에 따라서 확률을 계산하고, 스스로 결정하도록 고안된 인공지능이므로 개발 목적과 작동 방식이 고도의 의료 분야에 적용할 유형은 아닙니다.

딥마인드도 NHK의 질문에 ‘아직 알파고는 프로토타입이다. 의료 분야의 인공지능과는 차이가 있다는 걸 알아주셔야 한다.’라고 답했습니다.

인공지능이 불완전 정보(Imperfect Information)에서 인간을 넘을 수 있을까?

그렇다면 새로운 물음을 던질 수 있습니다.

‘인공지능이 불완전 정보에서 인간을 넘어설 수는 없을까?’

과학자들은 빠르면 50년 안에 자의식을 가진 ‘강 인공지능(Strong AI)’이 등장할 것으로 전망합니다. 확실히 먼 날의 얘기지만, 알파고가 갑자기 등장하지 않은 것처럼 50년이라는 기간 안에 강 인공지능에 다다르기 위한 몇 차례 단계와 다시 인간에게 충격을 줄 몇 가지 사건이 기다리고 있을 것입니다. 그리고 알파고의 다음 세대라면 불완전 정보까지 정복할 수 있는 인공지능일 가능성이 높겠죠.

복잡한 얘기처럼 들리지만, 개념은 쉽습니다. 강화 학습에 게임을 이용하는 이유는 확실한 보상과 완전 정보를 습득할 수 있다는 전제가 있기 때문입니다. 그러나 게임이 아닌 분야, 예를 들어 자동차의 완전 자율 주행 시스템은 완전 정보에 도달하기에 몇 가지 조건이 필요합니다.

그 중 첫 번째는 변수를 최대한 없애는 것 입니다. 자율 주행 시스템이 주목받자, 자율주행차는 ‘변수가 많은 도로 환경에서 운전자와 차량 앞의 사람 중 누군가를 보호해야 할 때, 어느 쪽을 선택할까?’라고 많은 사람이 걱정하기도 했습니다.

사실, 어느 쪽을 선택하더라도 전체 교통사고 통계로 보면, 과속, 음주 등의 변수를 줄인 자율 주행 시스템의 사고율은 낮을 것입니다. 이처럼, 컴퓨터는 어느 쪽을 결정하게 하는 것보다 아예 변수를 없애버리는 게 더 안전합니다. 가령 도로의 모든 차량을 컴퓨터로 제어할 수 있다면, 변수를 줄여 완전 정보에 근접할 수 있을 것입니다.

문제는 세상 모든 상황이 인간의 의도대로 흘러가고, 인공지능이 의도한 대로만 작동할 수 없다는 것이죠. 불완전한 정보만으로 스스로 판단하여 더 나은 답을 제시하는 인공지능의 출현은 자의식을 지닌 강 인공지능으로 나아가는 한 단계라고 할 수 있습니다.

인공지능과 인간, 세기의 포커 대결

이러한 지점에서 한 포커 대회에 참가한 ‘리브라투스(Libratus)’로 불리는 인공지능 프로그램이 새로운 척도가 될 것으로 보입니다.

지난 11일부터 미국 피츠버그 리버스 카지노에서 열린 포커 게임에서 카네기 멜런 대학(Carnegie Mellon University; CMU)에서 개발한 인공지능 ‘리브라투스’는 4인의 인간 플레이어를 꺾고 우승을 차지했습니다.

20일 동안 진행된 대회에서 리브라투스는 총 176만 6,250달러를 획득했습니다. 프로 포커 플레이어 중 한 명인 제이슨 레스(Jason Les)는 88만 달러를 잃었고, 다른 플레이어인 지미 초우(Jimmy Chou)는 52만 2,000달러, 다니엘 맥컬리(Daniel McAuley)는 22만 7,600만 달러, 동 김(Dong Kim)은 8만 5,600만 달러를 잃었습니다.

l 인공지능 리브라투스와 인간과의 포커 대결(출처: https://youtu.be/JtyA2aUj4WI)

여기까지는 인공지능과 인간의 대결에서 인공지능이 이겼다는 뻔한 시나리오처럼 보입니다. 그러나 포커라는 게임은 바둑처럼 완전 정보에 근접할 수 없고, 인간이라는 변수가 큰 영향을 끼친다는 점에서 리브라투스는 대단한 성과를 이룬 것입니다.

포커는 좋은 패에 적절히 베팅하는 것도 중요하지만, 좋지 않은 패라도 베팅을 하는 블러핑(bluffing)으로 상대방을 속이는 게 매우 중요합니다. 관련 뉴스에서 ‘기계는 포커페이스가 기본이니 더 유리하다.’라는 반응도 볼 수 있었는데요. 중요한 것은 포커페이스의 유리함이 아니라 인공지능이 스스로 결정하여 블러핑으로 승리할 확률을 높이거나 상대방의 블러핑을 간파하여 베팅할 수 있느냐의 ‘불완전 정보에 대한 결정’을 시험할 수 있다는 것에 의의를 둬야 하는 거죠.

실제 게임에서도 리브라투스는 블러핑에 능한 모습을 보였습니다. 가령 자신이 완성할 수 없는 카드 조합을 완성하려는 것처럼 공격적으로 베팅하여 다른 플레이어들을 속였습니다. 또는 수일간의 게임에서 파악한 상대 플레이어의 패턴을 분석하여 블러핑을 간파하는 능력을 빠르게 길렀습니다. 그렇다고 상대 플레이어의 심리를 읽은 건 아닙니다. 불완전한 정보를 토대로 상대 플레이어의 패턴에 따라 확률적으로 블러핑을 해야 하는 상황인지, 혹은 상대 플레이어가 블러핑을 하였는지 분석하여 베팅 싸움을 결정한 것입니다.

l 인간과 포커 대결을 펼치는 인공지능의 모습(출처: https://youtu.be/JtyA2aUj4WI)

그럼 리브라투스와 알파고의 근본적인 차이는 무엇일까요? 리브라투스는 신경망 네트워크를 사용하지 않고, 강화 학습에 의존했습니다. 딥마인드도 알파고를 구축하는 데 강화 학습을 이용했지만, 바둑의 기본적인 룰을 이해하기까지는 인간의 수를 가져와 여러 버전의 정책망을 마련한 뒤에, 정책망끼리 강화 학습을 진행했었죠.

그러나 리브라투스는 알파고와 다르게 처음부터 강화 학습으로 게임을 익혔으며, 이것은 인공지능이 극단적으로 시행착오를 겪도록 하였습니다. 만약 알파고가 강화 학습만 의존하여 바둑을 학습했다면 첫 착점을 익히기까지 훨씬 긴 시간이 걸렸을 겁니다.

리브라투스는 강화 학습에 의존한 덕분에, 인간의 개입 없이 많은 시행착오를 겪을 수 있었는데요. 이 덕분에, 확률을 계산하고, 베팅하는 방법을 인간과 다르게 습득할 수 있었습니다. 즉, 좀 더 나은 확률을 계산하는 방법을 밑바닥부터 학습하므로, 불확실한 정보에 대처하는 능력을 독립적으로 개발하는 것입니다. 리브라투스의 의도를 완벽히 이해할 수는 없겠지만, 시작부터 인간이 생각하는 것과는 다른 차이를 보이게 된다는 점은 매우 흥미롭습니다.

인공지능, 스스로 더 나은 길을 찾다

CMU 컴퓨터 과학 학과장인 프랭크 페닝(Frank Pfenning)은 ‘리브라투스의 개발은 컴퓨터 과학의 큰 진전’이라면서 ‘비즈니스 협상, 군사 전략, 사이버 보안, 의료 치료 등 여러 분야에 영향력을 끼칠 것’이라고 공식 성명을 통해 말했습니다.

페닝은 ‘자동차를 구매할 때 사람을 대신하여 가격을 협상할 수 있는 스마트폰 앱’을 예로 들었습니다. 불확실한 정보를 갖고, 인공지능이 인간보다 나은 결정을 할 수 있다면 응용 분야는 더욱 다양해질 것이라는 점을 강조했습니다.

물론 리브라투스의 의의와 강 인공지능 등장은 굉장히 먼 거리에 떨어져 있습니다. 또한, 학습 방식이 만능인 것도 아닙니다. 그러나 기존 인공지능 분야, 특히 강화 학습이 선택과 교환으로 보상을 최대화할 수 있는 게임에 치중했었다면, 리브라투스는 극단적인 강화 학습을 통해 불완전 정보의 문제를 처리하게 한다는 가능성으로 인공지능 응용 분야를 비약적으로 확장했습니다.

인공지능의 발전은 그것을 뒷받침해줄 수 있는 하드웨어의 발전도 중요합니다. 우선은, 새로운 시작과 가치를 열었다는 점에 주목하고, 강 인공지능이 등장하기까지 인공지능이 줄 몇 차례의 충격을 기대할 수 있게 되었다는 것에 의미를 두고 싶습니다.

네덜란드의 컴퓨터 과학자이자 가장 위대한 컴퓨터 과학자로도 불리는 에츠허르 데이크스트라(Edsger Wybe Dijkstra)는 ‘기계가 사람처럼 생각할 수 있을까요?’라는 질문에 ‘잠수함이 헤엄칠 수 있을까요?’라고 되물었다고 합니다. 다소 추상적인 말처럼 느껴질 수도 있는데요. 그러나 어떤 일을 해결하는 데 있어서 컴퓨터가 꼭 사람과 똑같이 사고하여 수행할 필요는 없습니다.

스스로 더 나은 방법, 더 효율적인 방법을 찾았다면 그것이야말로 인공지능이 인류에 끼치는 가장 큰 영향력이 아닐까요? 인공지능의 성장을 지켜보며, 새로운 인공지능 시대의 시작을 기대해보도록 하겠습니다.

글 | 맥갤러리 | IT 칼럼리스트

챗봇과 대화를 할 수 있어요