H

Hunyuanvideo

tencentによって開発
テンセントがオープンソース化した大規模動画生成モデルで、テキストから動画を生成可能、主要なクローズドソースモデルに匹敵する性能を実現。
ダウンロード数 2,285
リリース時間 : 12/1/2024

モデル概要

混元動画は主要なクローズドソースモデルを凌駕する性能を持つ新たなオープンソース動画基盤モデルで、データガバナンス、画像テキスト連携トレーニング、大規模トレーニングインフラ支援等の重要技術により、130億パラメータ超の現時点最大規模オープンソース動画生成モデルのトレーニングに成功。

モデル特徴

統合画像テキスト生成アーキテクチャ
『デュアルストリームからシングルストリーム』ハイブリッド設計を採用:初期段階で動画とテキストトークンをモダリティ別処理、後期段階で融合してクロスモーダル相互作用を実現し、高品質な画像テキスト生成の統合を達成。
マルチモーダル大規模言語モデルテキストエンコーダ
視覚的指示ファインチューニング済みDecoder-Only構造MLLMを採用し、優れた画像テキストアライメント能力と詳細記述の利点を有し、双方向トークン精製器を導入してテキストガイダンスを強化。
3D変分オートエンコーダ
CausalConv3Dを採用した3D VAEで時空間圧縮を実現(縦横チャネル圧縮比4/8/16)、オリジナル解像度動画トレーニングをサポート。
プロンプトリライト
混元大モデルをファインチューニングしたリライトモデルで、標準モード(意図の正確理解)とマスターモード(光と構図の記述強化)の2スタイルを提供。

モデル能力

テキストから動画生成
高解像度動画生成(最大1280x720)
マルチスタイル動画生成
長尺動画生成(最長5秒)

使用事例

クリエイティブコンテンツ生成
映画予告編制作
脚本記述に基づき自動的に映画予告編クリップを生成
高品質でテキスト記述に合致する動的動画コンテンツを生成
広告クリエイティブ生成
製品記述に基づき広告動画を生成
多様な広告クリエイティブ動画を迅速生成
教育
教育動画生成
教育内容に基づき自動的にアニメーションデモを生成
複雑な概念やプロセスを生き生きと表現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase