본문 바로가기

블로그

LG CNS 기술블로그 DX Lounge에서 최신 IT 소식을 만나보세요!

AI/Data

조상님 사진이 움짤로? AI 사진 프로젝트 딥 노스탤지어

2021.05.10

지난 2월에 온라인 족보 플랫폼인 마이헤리티지(MyHeritage)는 ‘딥 노스탤지어(Deep Nostalgia)’라는 인공지능(AI) 기반 서비스를 공개했습니다. 딥 노스탤지어는 스틸 사진을 움직이는 사진으로 만들어주는 서비스로, 얼굴의 움직임이 녹화된 비디오를 사용합니다. 해당 스틸 사진에 가장 적합한 영상을 적용해 얼굴에 시선이나 표정을 더합니다. 덕분에 사진으로 고인이 된 사랑하는 사람의 생동감 있는 모습을 볼 수 있습니다. 마이헤리티지는 이스라엘의 AI 스타트업인 D-ID가 제공한 AI 영상을 활용했다고 설명했습니다.

딥 노스탤지어 (출처: D-ID 홈페이지)

오늘날, 생체 데이터의 사용이 증가함에 따라서 CCTV 등 사진이나 영상물로 저장되는 얼굴에 관한 개인 정보 보호법도 강화하고 있는데요. D-ID가 개발한 안면 이미지 식별 솔루션을 활용하면 사람이 보기에는 비슷하지만, 인식 알고리즘은 사진과 동영상을 만들 수 있습니다. 또한 개인 정보 보호법을 준수하면서 저장하고, 데이터베이스를 보호할 수도 있습니다.

D-ID는 기술을 확장해 안면 재현 기술도 개발했습니다. 배우나 스틸사진 피사체에 사실적인 움직임, 표현을 추가합니다. 초상화를 움직이게 하거나 사진 속 인물이 연설하도록 만들 수도 있는 것입니다. 마이헤리티지는 가족의 계통을 연결하고, 오래전 떠난 가족들의 사진을 보유하고 있습니다. 이를 안면 재현 기술로 움직이게 만듭니다. 여기에 D-ID의 핵심 가치인 개인 정보 보호를 포함해, 해당 데이터가 다른 곳에 사용될 수 없도록 했습니다.

이처럼 AI 기술을 이용한 사진 프로젝트는 지금까지 마주할 수 없었던 초현실적인 경험을 제공합니다. 이런 프로젝트는 마냥 신기한 기술을 넘어 보안 등 다양한 분야에 활용되고 있습니다. 그 시작은 D-ID가 기술 개발에 사용한 딥러닝(Deep Learning) 모델 ‘GAN(Generative Adversarial Network)’입니다.

GAN (출처: Generative Adversarial Networks)

GAN은 2014년에 AI 과학자 이안 굿펠로우가 제시한 AI 알고리즘입니다. 생성자(Generator)와 판별자(Discriminator)라는 두 가지 요소로 구성돼 있는데요. 이때, 생성자는 판별자를 속이려는 위조범, 판별자는 가짜를 밝혀 위조범을 잡으려는 경찰로 이해할 수 있습니다. 위조범은 경찰을 속이고자 갈수록 정교한 가짜를 만듭니다. 정교해진 가짜를 찾으려는 경찰의 판별 능력도 향상할 겁니다. 그렇게 생성자와 판별자는 몇 가지 제약 내에서 이기기 서로를 위해 수천 번의 제로섬 게임을 이행하게 됩니다. 시간이 지남에 따라 위조범은 좋은 결과물을 내놓을테고, 진짜와 닮은 가짜에 가까워질 수 있습니다.

GAN 등장 이후 정답을 두지 않고 학습하는 비지도 학습(Unsupervised Learning)과 이미지 생성에 대한 관심이 증가했습니다. 원본에 다른 사진이나 영상을 합성하는 딥페이크(Deepfake) 기술도 GAN 기반으로 만들어진 것인데요. 딥페이크는 악용에 관한 우려로 논란의 대상이 됐지만, 딥 노스탤지어처럼 옛 사진을 꺼내게 하는 멋진 사진 프로젝트도 등장하게 합니다. GAN 기반의 유명한 사진 프로젝트는 몇 가지 더 있습니다.

2018년부터 시작된 디올디파이(DeOldify)는 흑백 사진에 색을 입히는 프로젝트입니다. GAN의 일반적인 구현에서는 생성자와 판별자가 같은 속도로 학습했을 때 생성자보다 판별자가 더 빨리 학습하는 경우가 많이 발생했습니다. 디올디파이는 안정성을 개선한 SAGAN(Self-Attention Generative Adversarial Networks)을 통해 생성자의 학습 속도를 5배 빠르게 조정했습니다. 이로써 저해상도 이미지에 그쳤던 모델에 점진적으로 고해상도 이미지 생성을 훈련했고, 기존 흑백 사진에 색만 고스란히 입힌 것처럼 보이는 결과물을 만들어 낼 수 있었습니다.

아일랜드 국립대락의 존 브레슬린(John Breslin) 교수와 사라 앤 버클리(Sarah-Anne Buckley) 교수는 디올디파이를 이용해 아일랜드 전역의 역사적인 흑백 사진들에 풍부한 색을 입혔습니다. 이를테면 타이타닉호가 벨파스트 조선소에서 출항하는 순간과 같은 것 말입니다.

올드 아일랜드 인 컬러 (출처: Old Ireland in Colour 홈페이지)

하지만 AI에는 한계가 있습니다. 미국에서 개발한 소프트웨어가 아일랜드에 대해 학습하지 못한 것인데요. 브레슬린은 “전 세계 평균적인 지붕의 색깔은 테라코타, 오렌지, 갈색 종류이지만, 아일랜드의 지붕은 보통 회색이나 검은색 슬레이트였다”라고 말했습니다. 이는 흑백사진의 색채화에 논란이 되는 부분입니다. 오래된 사진을 강화하기보다는 난독하는 결과를 만들어낼 수 있다는 것이죠.

그러나 브레슬린은 “우리는 원본 컬렉션에 대한 조언을 제공하는 것”이라면서 “프로젝트가 역사에 관심이 없을 수 있는 사람들을 참여시키는 데에 도움이 될 수 있길 바란다”고 말했습니다. 색채화가 역사적 사진을 다시 보게 만드는 실마리가 된다면 브레슬린의 주장도 납득할 얘기입니다. 기술은 지금보다 더 발전하고, 개선될 테니까요. 참고로 ‘올드 아일랜드 인 컬러(Old Ireland in Colour)’로 불리는 이 프로젝트의 사진 모음집은 지난 4월에 발매됐습니다.

카메라 이전 시대의 그림은 어떨까요? 미국 샌프란시스코의 크리에이티브 테크놀로지스트이자 모션 그래픽 아티스트인 네이션 쉬플리는 매우 낮은 화질의 이미지를 높은 화질로 점진적 생성하는 StyleGAN을 사용해 모나리자 등 초상화를 사실적인 이미지로 바꿨습니다.

StyleGAN은 2018년에 그래픽처리장치(GPU) 제조업체인 엔비디아가 제시한 모델로, 2017년에 발표한 PGGAN(Progressive Growing of GANs)에 뿌리를 두고 있죠. PGGAN의 가장 큰 특징은 4×4의 해상도가 낮은 이미지부터 시작해 1024×1024까지 해상도를 단계적으로 높인다는 것입니다. 기존 GAN은 고화질의 이미지를 생성하기 어려웠었는데, PGGAN가 여러 실마리 중 하나였습니다. 하지만 PGGAN는 이미지가 어색해지는 문제를 가지고 있었습니다. 이를 해결할 방법으로 제안된 것이 StyleGAN입니다.

모나리자 사실화 (출처: instagram.com/nathan_shipley_vfx) 

StyleGAN이 PGGAN과 다른 점은 이미지를 생성할 때 스케일 스페시픽 컨트롤(Scale-Specific Control)이 가능하다는 점입니다. 우리는 같은 이미지를 보더라도 스케일에 따라 다른 걸 보게 됩니다. 생선을 가까이서 보면 비늘이나 지느러미가 보이겠지만, 멀리서 보면 바닷속을 볼 수도 있겠죠. 컴퓨터도 마찬가지입니다. 어떤 스케일로 이미지를 보는지에 따라서 똑같은 이미지로도 완전히 다른 결과물이 나올 수 있습니다. StyleGAN은 이런 스케일을 자유롭게 조절할 수 있습니다. 예컨대 흑발 남자와 금발 여자를 합성할 때 흑발 남자를 성별만 바꿔서 흑발 여자로 생성하거나 머리카락 색만 바꿔서 금발 남자로 만들 수 있습니다.

쉬플리가 초상화를 사실적인 이미지로 바꿀 수 있었던 것도 이런 StyleGAN의 특징을 활용했기 때문입니다. 초상화 대상의 구도나 색상, 이목구비의 특징과 표정은 놔둔 채로 사진에서 나타나는 사실성만 부여해 마치 실제 인물이 사진을 남겨놓은 것처럼 이미지를 만들었습니다. 정확히는 얼굴의 특징을 읽어낸 후 가장 비슷한 실제 사진 데이터를 합성하는 것이죠.

이 밖에도 사진을 초상화로 그려주거나 좀비나 사탄으로 바꿔주는 등 GAN을 이용한 사진 프로젝트는 점점 늘고 있습니다. 프로젝트에서 발생한 문제점을 파악하고, 개선함으로써 알고리즘 모델도 아주 정교한 수준까지 발전했습니다. 다만, 사진이나 영상을 활용하는 점에서 개인 정보 보호에 관한 우려와 딥페이크 논란에서 벗어나긴 어려울 것입니다. 그렇다고 기술 발전을 막을 수 없을 테니, 어떻게 활용할지는 우리의 몫입니다.

글 ㅣ 맥갤러리 ㅣ IT 칼럼니스트

챗봇과 대화를 할 수 있어요