JoyVASA開源音頻驅動面部動畫模型 - 支持多語言生成面部動態與頭部運動

首頁

Joyvasa

由jdh-algo開發

JoyVASA是一種基於擴散模型的音頻驅動面部動畫生成方法，能夠生成面部動態和頭部運動，支持多語言輸入。

視頻處理開源協議:MIT #音頻驅動動畫 #解耦面部表徵 #多語言支持

下載量 95

發布時間 : 11/13/2024

模型概述

JoyVASA通過解耦的面部表徵框架和擴散變換器技術，從音頻線索生成高質量的面部動畫，適用於人物肖像和動物面部。

模型特點

解耦面部表徵

將動態面部表情與靜態3D面部表徵分離，支持更長的視頻生成

身份無關運動生成

擴散變換器直接從音頻生成運動序列，不受角色身份影響

跨物種支持

不僅能處理人物肖像，還能為動物面部生成動畫

多語言支持

在中文私有數據集和英文公開數據集的混合數據上訓練

模型能力

音頻驅動面部動畫生成

3D面部表徵渲染

跨物種面部動畫

長視頻序列生成

使用案例

數字娛樂

虛擬主播動畫

為虛擬主播生成與語音同步的面部表情和頭部運動

自然流暢的面部動畫效果

教育

動物形象教學

為教育內容中的動物形象生成生動的面部動畫

增強教學內容的趣味性和互動性

🚀 JoyVASA：基於擴散模型的音頻驅動面部動畫生成

JoyVASA是一種基於擴散模型的方法，用於在音頻驅動的面部動畫中生成面部動態和頭部運動。該方法通過解耦面部表示和身份無關的運動生成過程，不僅適用於人物肖像，還能無縫實現動物面部的動畫效果。同時，模型支持多語言，實驗結果驗證了其有效性。

🚀 快速開始

代碼可在 GitHub 上找到。

✨ 主要特性

解耦面部表示框架：將動態面部表情與靜態3D面部表示分離，可通過組合任意靜態3D面部表示與動態運動序列生成更長的視頻。
身份無關的運動生成：使用擴散變壓器直接從音頻提示中生成運動序列，不受角色身份的影響。
多語言支持：模型在包含中文和英文的混合數據集上進行訓練，支持多語言輸入。
廣泛的應用範圍：不僅適用於人物肖像，還能實現動物面部的動畫效果。

📄 許可證

本項目採用MIT許可證。

📚 詳細文檔

簡介

我們提出了JoyVASA，一種基於擴散模型的方法，用於在音頻驅動的面部動畫中生成面部動態和頭部運動。具體來說，在第一階段，我們引入了一個解耦的面部表示框架，將動態面部表情與靜態3D面部表示分離。這種解耦使得系統能夠通過組合任意靜態3D面部表示與動態運動序列來生成更長的視頻。然後，在第二階段，訓練一個擴散變壓器，直接從音頻提示中生成運動序列，而不受角色身份的影響。最後，在第一階段訓練的生成器使用3D面部表示和生成的運動序列作為輸入，渲染高質量的動畫。通過解耦的面部表示和身份無關的運動生成過程，JoyVASA不僅適用於人物肖像，還能無縫實現動物面部的動畫效果。該模型在包含中文和英文的混合數據集上進行訓練，支持多語言。實驗結果驗證了我們方法的有效性。未來的工作將重點關注提高即時性能和優化表情控制，進一步擴展該框架在肖像動畫中的應用。

📚 引用

@misc{cao2024joyvasaportraitanimalimage,
      title={JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation}, 
      author={Xuyang Cao and Guoxin Wang and Sheng Shi and Jun Zhao and Yang Yao and Jintao Fei and Minyu Gao},
      year={2024},
      eprint={2411.09209},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.09209}, 
}