Microsoft 실시간 대화하는 얼굴 합성 기술 'VASA-1' 공개

알림
|
X

페이지 정보

작성자 공상가 221.♡.142.13
작성일 2024.04.19 18:33
2,827 조회
4 추천
쓰기

본문

3718483469_5cLJ4fZY_d700652739ad1418139523fde1a89597ca969127.jpg

마이크로소프트는 사용자의 사진과 음성 샘플을 업로드하면 실시간으로 대화하는 얼굴 애니메이션을 생성할 수 있는 새로운 인공지능(AI) 모델 ‘VASA-1’을 발표했다고 19일 밝혔다.

톰스가이드에 따르면 해당 기술은 한 장의 초상화 사진과 오디오 파일만으로 고도의 리얼리즘을 구현한 입모양 동기화와 얼굴 움직임을 담은 영상으로 변환한다.

VASA-1은 현재 연구용 프리뷰 단계로, 마이크로소프트 연구팀 외에는 아직 사용해볼 수 없다. 그러나 공개된 데모 영상은 이미 품질 면에서 높은 수준을 보여주고 있으며, 기존 립싱크 기술과 비교하여 입 주위의 잔상 없이 자연스러운 움직임을 구현해내고 있다. 이 모델은 가상 캐릭터의 애니메이션화뿐만 아니라 실제 사진을 대상으로도 작동하는 가능성을 보여준다.

아울러 VASA-1은 고정된 전면 이미지가 아닌 다양한 방향의 샷에도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 입력으로 받아 표현할 수 있는 높은 조절 능력을 갖췄다. 이 기술의 주요 사용 사례로는 게임 내 AI 구동 NPC의 자연스러운 립싱크 개선, 소셜 미디어용 가상 아바타 제작, AI 기반 영화 제작 등이 있을 수 있다.

마이크로소프트 연구팀은 VASA-1이 노래에 맞춰 완벽한 입모양 동기화를 보여줬으며, 심지어 ‘모나리자’와 같은 이미지 스타일에서도 문제없이 작동했다고 밝혔다.

현재 이 모델은 512x512 픽셀 이미지를 초당 45프레임으로 생성할 수 있으며, 이 작업은 데스크탑급 엔비디아 RTX 4090 GPU를 사용해 약 2분이 소요된다. 연구 단계에 머물러 있는 이 기술이 개발자에게나 대중에게 공개될 가능성은 아직 미지수이다.

 

출처: Microsoft, 매일경제

댓글 6 / 1 페이지

maplus님의 댓글

작성자 maplus (209.♡.137.71)
작성일 04.19 20:12
이 연구를 주도한게 MS Research Asia 인데 중국 북경에 있더군요.
얼굴 데이터 AI 에 대해 대해 가장 잘 다루는 중국인들이다보니 이런 결과가 나오는건 당연한거 같기도 합니다.

공상가님의 댓글의 댓글

대댓글 작성자 공상가 (245.♡.32.124)
작성일 04.19 20:17
@maplus님에게 답글 맞습니다. 추가로 AI 분야에서 중국인들의 약진이 한 몫 한 것 같습니다.
링크에 들어가서 보시면 아시겠지만, 음성까지 합성해서 싱크를 맞춘 것이 정말 대단합니다.

아재님의 댓글의 댓글

대댓글 작성자 아재 (76.♡.139.158)
작성일 04.19 21:20
@공상가님에게 답글 물론 MS에 속한 연구원들인건 맞지만 막대한 자료와 풍부한 이과계열 인재들, 또 정부에서 막대한 자금으로 지원하니 중국이 막 치고 나가네요. ㄷㄷㄷ

6K2KNI님의 댓글

작성자 6K2KNI (14.♡.68.9)
작성일 04.19 20:31
이모션 캡쳐 망하겠네요...

keaton님의 댓글

작성자 keaton (211.♡.209.105)
작성일 04.19 20:54
무지의 시기를 지나 서민들도 교양을 갖춘 시대가 왔다고 생각했는데 다시 지식의 격차가 커지는 느낌이네요.

셀빅아이님의 댓글

작성자 셀빅아이 (125.♡.200.218)
작성일 04.21 05:48
이거 악용하려면 얼마든지 가능할것 같습니다.ㄷ
MS도 발표만 했지 미 대선 앞두고 공개 꺼리고 있다는걸로 봤습니다.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색