JoyVASAオープンソースオーディオドライブ顔面アニメーションモデル - 多言語に対応した顔面ダイナミクスと頭部運動の生成

ホーム

Joyvasa

jdh-algoによって開発

JoyVASAは拡散モデルに基づくオーディオ駆動の顔面アニメーション生成手法で、顔の動きや頭部の動きを生成し、多言語入力に対応しています。

動画処理オープンソースライセンス:MIT #オーディオ駆動アニメーション #分離された顔面表現 #多言語サポート

ダウンロード数 95

リリース時間 : 11/13/2024

モデル概要

JoyVASAは分離された顔面表現フレームワークと拡散トランスフォーマー技術を用いて、オーディオの手がかりから高品質な顔面アニメーションを生成し、人物の肖像や動物の顔にも適用可能です。

モデル特徴

分離された顔面表現

動的な顔の表情を静的な3D顔面表現から分離し、より長い動画生成をサポート

ID非依存の動き生成

拡散トランスフォーマーがオーディオから直接動きのシーケンスを生成し、キャラクターのIDに影響されない

種横断サポート

人物の肖像だけでなく、動物の顔にもアニメーションを生成可能

多言語サポート

中国語のプライベートデータセットと英語の公開データセットの混合データでトレーニング

モデル能力

オーディオ駆動顔面アニメーション生成

3D顔面表現レンダリング

種横断顔面アニメーション

長い動画シーケンス生成

使用事例

デジタルエンターテインメント

バーチャルアナウンサーアニメーション

バーチャルアナウンサーに音声と同期した顔の表情や頭の動きを生成

自然で滑らかな顔面アニメーション効果

教育

動物キャラクター教育

教育コンテンツ中の動物キャラクターに生き生きとした顔面アニメーションを生成

教育コンテンツの面白さとインタラクティブ性を向上

🚀 JoyVASA

音声駆動型の顔アニメーションにおいて、拡散ベースの手法を用いて顔の動きと頭部の動きを生成するモデルです。多言語対応し、人間の肖像だけでなく動物の顔もアニメーション化できます。

🚀 クイックスタート

JoyVASAは、音声駆動型の顔アニメーションにおいて、拡散ベースの手法を用いて顔の動きと頭部の動きを生成する方法を提案します。まず、第1段階では、動的な顔の表情を静的な3D顔表現から分離する分離型顔表現フレームワークを導入します。この分離により、システムは任意の静的3D顔表現と動的な動きシーケンスを組み合わせて、より長いビデオを生成することができます。次に、第2段階では、拡散トランスフォーマーを訓練して、キャラクターのアイデンティティに依存せずに音声キューから直接動きシーケンスを生成します。最後に、第1段階で訓練されたジェネレーターは、3D顔表現と生成された動きシーケンスを入力として、高品質なアニメーションをレンダリングします。分離型顔表現とアイデンティティに依存しない動き生成プロセスにより、JoyVASAは人間の肖像を超えて、動物の顔もシームレスにアニメーション化することができます。このモデルは、中国語のプライベートデータと英語の公開データのハイブリッドデータセットで訓練されており、多言語サポートを可能にします。実験結果は、我々のアプローチの有効性を検証しています。将来的な作業では、リアルタイム性能の向上と表情制御の洗練に焦点を当て、肖像アニメーションにおけるこのフレームワークの応用範囲をさらに拡大する予定です。

📚 ドキュメント

使い方

コードはこちらのリンクから見ることができます：https://github.com/jdh-algo/JoyVASA。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 引用

@misc{cao2024joyvasaportraitanimalimage,
      title={JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation}, 
      author={Xuyang Cao and Guoxin Wang and Sheng Shi and Jun Zhao and Yang Yao and Jintao Fei and Minyu Gao},
      year={2024},
      eprint={2411.09209},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.09209}, 
}