Microsoft 실시간 대화하는 얼굴 합성 기술 'VASA-1' 공개

공상가 (221.♡.142.13)

2024년 4월 19일 PM 06:33 · 수정됨(04. 21. 05:48)

조회 3,031 공감 0

3718483469_5cLJ4fZY_d700652739ad1418139523fde1a89597ca969127.jpg

마이크로소프트는 사용자의 사진과 음성 샘플을 업로드하면 실시간으로 대화하는 얼굴 애니메이션을 생성할 수 있는 새로운 인공지능(AI) 모델 ‘VASA-1’을 발표했다고 19일 밝혔다.

톰스가이드에 따르면 해당 기술은 한 장의 초상화 사진과 오디오 파일만으로 고도의 리얼리즘을 구현한 입모양 동기화와 얼굴 움직임을 담은 영상으로 변환한다.

VASA-1은 현재 연구용 프리뷰 단계로, 마이크로소프트 연구팀 외에는 아직 사용해볼 수 없다. 그러나 공개된 데모 영상은 이미 품질 면에서 높은 수준을 보여주고 있으며, 기존 립싱크 기술과 비교하여 입 주위의 잔상 없이 자연스러운 움직임을 구현해내고 있다. 이 모델은 가상 캐릭터의 애니메이션화뿐만 아니라 실제 사진을 대상으로도 작동하는 가능성을 보여준다.

아울러 VASA-1은 고정된 전면 이미지가 아닌 다양한 방향의 샷에도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 입력으로 받아 표현할 수 있는 높은 조절 능력을 갖췄다. 이 기술의 주요 사용 사례로는 게임 내 AI 구동 NPC의 자연스러운 립싱크 개선, 소셜 미디어용 가상 아바타 제작, AI 기반 영화 제작 등이 있을 수 있다.

마이크로소프트 연구팀은 VASA-1이 노래에 맞춰 완벽한 입모양 동기화를 보여줬으며, 심지어 ‘모나리자’와 같은 이미지 스타일에서도 문제없이 작동했다고 밝혔다.

현재 이 모델은 512x512 픽셀 이미지를 초당 45프레임으로 생성할 수 있으며, 이 작업은 데스크탑급 엔비디아 RTX 4090 GPU를 사용해 약 2분이 소요된다. 연구 단계에 머물러 있는 이 기술이 개발자에게나 대중에게 공개될 가능성은 아직 미지수이다.

출처: Microsoft, 매일경제

https://www.microsoft.com/en-us/research/project/vasa-1/

https://n.news.naver.com/mnews/article/009/0005290851?sid=105

가

가사라

24.04.19 · 209.♡.137.71

이 연구를 주도한게 MS Research Asia 인데 중국 북경에 있더군요.
얼굴 데이터 AI 에 대해 대해 가장 잘 다루는 중국인들이다보니 이런 결과가 나오는건 당연한거 같기도 합니다.
오

오목눈이 → 가사라 작성자

24.04.19 · 245.♡.32.124

맞습니다. 추가로 AI 분야에서 중국인들의 약진이 한 몫 한 것 같습니다.
링크에 들어가서 보시면 아시겠지만, 음성까지 합성해서 싱크를 맞춘 것이 정말 대단합니다.
아

아재 → 오목눈이

24.04.19 · 76.♡.139.158

물론 MS에 속한 연구원들인건 맞지만 막대한 자료와 풍부한 이과계열 인재들, 또 정부에서 막대한 자금으로 지원하니 중국이 막 치고 나가네요. ㄷㄷㄷ
쩝

쩝쩝박사

24.04.19 · 14.♡.68.9

이모션 캡쳐 망하겠네요...
K

keaton

24.04.19 · 211.♡.209.105

무지의 시기를 지나 서민들도 교양을 갖춘 시대가 왔다고 생각했는데 다시 지식의 격차가 커지는 느낌이네요.
셀

셀빅아이

24.04.21 · 125.♡.200.218

이거 악용하려면 얼마든지 가능할것 같습니다.ㄷ
MS도 발표만 했지 미 대선 앞두고 공개 꺼리고 있다는걸로 봤습니다.

댓글을 작성하려면 이 필요합니다.

새로운 소식

추가 메뉴

댓글 (6)