Microsoft 실시간 대화하는 얼굴 합성 기술 'VASA-1' 공개
페이지 정보
본문
마이크로소프트는 사용자의 사진과 음성 샘플을 업로드하면 실시간으로 대화하는 얼굴 애니메이션을 생성할 수 있는 새로운 인공지능(AI) 모델 ‘VASA-1’을 발표했다고 19일 밝혔다.
톰스가이드에 따르면 해당 기술은 한 장의 초상화 사진과 오디오 파일만으로 고도의 리얼리즘을 구현한 입모양 동기화와 얼굴 움직임을 담은 영상으로 변환한다.
VASA-1은 현재 연구용 프리뷰 단계로, 마이크로소프트 연구팀 외에는 아직 사용해볼 수 없다. 그러나 공개된 데모 영상은 이미 품질 면에서 높은 수준을 보여주고 있으며, 기존 립싱크 기술과 비교하여 입 주위의 잔상 없이 자연스러운 움직임을 구현해내고 있다. 이 모델은 가상 캐릭터의 애니메이션화뿐만 아니라 실제 사진을 대상으로도 작동하는 가능성을 보여준다.
아울러 VASA-1은 고정된 전면 이미지가 아닌 다양한 방향의 샷에도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 입력으로 받아 표현할 수 있는 높은 조절 능력을 갖췄다. 이 기술의 주요 사용 사례로는 게임 내 AI 구동 NPC의 자연스러운 립싱크 개선, 소셜 미디어용 가상 아바타 제작, AI 기반 영화 제작 등이 있을 수 있다.
마이크로소프트 연구팀은 VASA-1이 노래에 맞춰 완벽한 입모양 동기화를 보여줬으며, 심지어 ‘모나리자’와 같은 이미지 스타일에서도 문제없이 작동했다고 밝혔다.
현재 이 모델은 512x512 픽셀 이미지를 초당 45프레임으로 생성할 수 있으며, 이 작업은 데스크탑급 엔비디아 RTX 4090 GPU를 사용해 약 2분이 소요된다. 연구 단계에 머물러 있는 이 기술이 개발자에게나 대중에게 공개될 가능성은 아직 미지수이다.
공상가님의 댓글의 댓글
링크에 들어가서 보시면 아시겠지만, 음성까지 합성해서 싱크를 맞춘 것이 정말 대단합니다.
아재님의 댓글의 댓글
keaton님의 댓글
셀빅아이님의 댓글
MS도 발표만 했지 미 대선 앞두고 공개 꺼리고 있다는걸로 봤습니다.
maplus님의 댓글
얼굴 데이터 AI 에 대해 대해 가장 잘 다루는 중국인들이다보니 이런 결과가 나오는건 당연한거 같기도 합니다.