단어 하나면 글과 그림, 영상까지 만든다! 생성형 AI의 시대

진화하는 생성형 모델

‘샌프란시스코 바다에 떠 있는 해적선’이라고 입력을 하면 몇 초 만에 금문교 아래를 지나가는 해적선 그림이 나타납니다. 해골과 십자형 돛이 달린, 영락없는 대항해시대의 갤리온 선박입니다.

그래픽 툴 플랫폼인 어도비가 지난달 미국 로스앤젤레스에서 연례 이벤트인 ‘어도비 맥스 2022’를 통해 선보인 생성형 AI(Generative AI) ‘센세이’입니다. 생성형 모델은 데이터를 입력하면 AI가 해당 데이터를 유추해 사람이 원하는 결과값을 만들어 내는 알고리즘입니다. 추상적인 이미지까지 그릴 수 있다는 점에서 올해 실리콘밸리에서도 매우 높은 관심을 끌고 있습니다.

마이크로소프트가 투자한 오픈AI가 달리2를 선보였고, LG가 엑사원이라는 초거대 AI를 내놓았는데요. 이후 미드저니, 노블AI 등 수많은 생성모델 스타트업이 급부상했습니다.

‘어도비 맥스 2022’에서 포토샵으로 유명한 어도비 역시 문장을 입력하면 그림을 그리는 AI를 선보였습니다. 특히 어도비의 컴퓨터 비전 AI는 절반만 그린 그림의 나머지 부분을 ‘척’하고 그려냈습니다. 다른 빅테크들의 경우 비즈니스 모델이 마땅치 않은데 반해, 어도비는 구독료를 받고 포토샵을 제공하고 있기 때문에 상업적 가능성이 크다는 분석이 나왔습니다.

강아지의 목줄을 자유롭게 지울 수 있는 포토샵의 힐링 브러시 기능(출처: 어도비)

불필요한 피사체를 삭제한다

‘어도비 맥스 2022’에서 시선을 모은 것은 단연 필요한 배경은 살리고 불필요한 피사체만 골라 삭제하는 기술인 ‘힐링 브러시’였습니다. 힐링 브러시는 포토샵에 탑재돼 있어 언제든 사용이 가능합니다. 예를 들어, 파도가 치는 바닷가를 배경으로 셀카를 찍었다고 가정해 보겠습니다. 주변에 수많은 인파들이 같이 나올 경우 지금까지는 마땅한 방법이 없었는데요. 하지만 센세이의 이 기술을 사용한다면 불필요한 인물들을 지우고, 빈공간을 자연스럽게 채워 넣을 수 있습니다.

이러한 기능은 영화에서도 적용이 가능합니다. 카메라가 도로 위의 추격 장면을 촬영하고 있는데 난데없이 차량이 합류할 경우 불필요한 차량의 영상만 도려낼 수 있습니다. 지금까지의 AI는 개체를 인식해서 대상은 살려 두고 배경은 제거하는 기술이 전부였습니다. 이제는 불필요한 개체는 제거한 뒤, AI가 빈공간을 상상해서 삭제된 공간의 배경을 그려주는 시대가 열린 것입니다.

실제 힐링 브러시를 사용해보니, 강아지 목줄이나 작은 간판 같은 물체를 삭제하면 AI가 빈 공간을 제대로 그려냈습니다. 하지만 어도비의 AI에도 아쉬운 점이 있었습니다. 크기가 큰 개체를 지우면 AI가 제대로 구현하지 못하고 미처 그리다 만 빈공간이 남았습니다.

주목해야할 점은 어도비는 공룡기업이라는 사실입니다. 디자이너들이 지난 1년간 어도비의 AI를 사용한 횟수는 13억 회에 달한다고 합니다. 디자이너들이 잘못된 부분을 지우고 다시 그리는 것을 반복할 때마다 엄청난 기계학습이 이루어지기 때문에, 지속적인 발전을 기대해 볼 수 있을 것 같습니다.

합성도 자유자재로

어도비는 ‘어도비 스닉스’라는 미래 기술 시연회를 별도로 열었습니다. 어도비 스닉스는 현재 개발 중인 새로운 AI 기술들을 공개한 자리였습니다. 당시 선보인 기술들은 아직 상용화 단계는 아니지만 조만간 시장에 나올 서비스들입니다.

어도비 스닉스에서는 ‘프로젝트 클레버 콤퍼짓’이라는 AI가 주목받았습니다. 이 AI는 몇 가지 사진을 업로드하면 자동으로 합성을 해주는 기술입니다. 어도비는 등산객, 밤하늘, 텐트 사진을 올려 두고 이를 자동으로 합성하는 장면을 시연했는데요. 어도비는 “AI가 사진을 자동으로 잘라내고 배경과 일치하도록 색상과 크기까지 조정한다”고 설명했습니다.

어도비의 AI ‘프로젝트 클레버 콤퍼짓’이 여러 사진을 자동으로 합성한 장면 (출처: 어도비)

또, ‘프로젝트 모션 믹스’라는 새로운 3D 영상 AI 기술도 선보였습니다. 카메라 앞에서 댄서가 춤을 추면 AI가 이를 인지하는데요. 이어 애니메이션 캐릭터가 이 동작을 그대로 따라 움직이게 됩니다.

문장을 입력하면 동영상이 완성된다

구글 역시 생성 AI를 대폭 강화하는 추세입니다. 구글은 올해 10월 미국 뉴욕 사무실에서 AI 연례 컨퍼런스인 ‘AI@: 불가능을 탐험하다’를 열었습니다. 구글 순다르 피차이(Sundar Pichai) CEO는 “구글은 AI가 사람들을 돕는 서비스로 정착할 수 있도록 최선의 노력을 기울이고 있다”면서 “이러한 기술은 삶에 큰 도움이 될 것”이라고 설명했습니다.

특히 문장을 입력하면 이미지뿐만 아니라 동영상과 음악을 창작하는 단계로 나아가고 있습니다. 구글은 AI 시스템 ‘이매진 비디오’와 ‘페나키’ 모델을 선보였습니다. 구글 AI는 문장만으로 동물원에서 움직이는 기린 등을 동영상으로 전환하는 모습을 보여줬습니다. 이매진 비디오는 초당 24초 프레임으로 최대 1280×768 해상도 비디오를 생성해냅니다. 물론 AI를 통해 생성된 동영상의 움직임이 아직은 완벽히 자연스럽다고 할 수는 없습니다. 하지만 문장만으로 동영상을 생성한다는 점에서 진일보했다는 평가를 받았습니다.

디자이너 위상 축소 VS 불편함 해소

이런 생성 모델들의 급속한 발전은 디자이너에게 영향을 미칠 수 있습니다. 디자이너의 위상이 축소될 수 있다는 염려도 커지고 있습니다. 심지어 생성 모델에 학습시킨 데이터 역시 동의를 구하지 않은 채 취합한 것이 존재하기 때문에, 이를 공개하는 것도 법적 문제가 될 수 있다는 주장이 나옵니다.

반면 생성 AI가 불편함을 해소하는 도구에 지나지 않는다는 반대의 주장도 있습니다. 어도비의 디지털이미징 담당인 마리아 얍(Maria Yap) 부사장은 간담회에서 “아티스트는 AI를 통해 보다 본질적이고 창조적인 일에 집중할 수 있을 것”이라고 설명했습니다.

향후 생성 AI를 둘러싼 논쟁은 더 커질 것으로 예상됩니다. 하지만 어떤 결론이 내려지든 미래 세상에서는 테크놀로지와 상호 영향을 주며 진화할 수 있는 사람들이 더욱 크게 성장할 것으로 보입니다.

글 ㅣ 이상덕 ㅣ 매일경제 실리콘밸리 특파원

블로그

단어 하나면 글과 그림, 영상까지 만든다! 생성형 AI의 시대

관련 아티클