V-Expressオープンソース動画生成モデル - 音声入力を無料で簡単に動的な動画出力に変換

V Express

tk93によって開発

V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。

テキスト生成ビデオ英語#オーディオ駆動ビデオ生成 #顔面動的合成 #安定拡散アーキテクチャ

ダウンロード数 118.36k

リリース時間 : 5/23/2024

モデル概要

V-Expressは革新的なビデオ生成モデルで、オーディオ入力と顔のキーポイント分析を組み合わせ、オーディオからビデオへの変換を実現します。このモデルは安定拡散技術と顔分析コンポーネントを利用し、入力オーディオと同期した顔アニメーションビデオを生成できます。

モデル特徴

オーディオ駆動のビデオ生成

オーディオ入力を同期した顔アニメーションビデオに変換可能

顔キーポイントガイダンス

insightfaceモデルを使用して顔分析を行い、生成ビデオの表情を自然に保証

安定拡散技術に基づく

改良された安定拡散アーキテクチャを採用し、ビデオ生成の品質を保証

モジュール設計

独立したオーディオエンコーダー、顔分析モジュール、ビデオ生成モジュールを含み、拡張と改良が容易

モデル能力

オーディオからビデオ変換

顔アニメーション生成

音声同期ビデオ生成

顔表情分析

使用事例

デジタルヒューマン

バーチャルアナウンサー

テキストや音声をバーチャルアナウンサーの放送ビデオに変換

音声と同期したリアルな顔アニメーションを生成

デジタルアシスタント

音声アシスタントのための視覚的な顔表情を作成

ユーザー体験を向上させるインタラクティブなデジタルヒューマン

エンターテインメント

パーソナライズドスタンプ

ユーザーの音声に基づいて個性的なアニメーションスタンプを生成

ユニークなソーシャルメディアコンテンツを作成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

V Express

モデル概要

モデル特徴

モデル能力

使用事例

🚀 V-Expressモデルカード

📚 ドキュメント

モデル

オーディオエンコーダ

顔分析

V-Express

📄 ライセンス