すべてのカテゴリ

テキスト生成ビデオ

2025年最高の 254 個のテキスト生成ビデオツール

Xclip Base Patch32

X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。

テキスト生成ビデオ

Transformers 英語

DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。

テキスト生成ビデオ英語

Wan2.1 14B VACE GGUF

Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。

テキスト生成ビデオ

Animatediff Lightning

超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上

テキスト生成ビデオ

V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。

テキスト生成ビデオ英語

CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。

テキスト生成ビデオ英語

Llava NeXT Video 7B Hf

LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。

テキスト生成ビデオ

Transformers 英語

Wan2.1 T2V 14B Diffusers

万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。

テキスト生成ビデオ複数言語対応

Wan2.1 T2V 1.3B Diffusers

万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。

テキスト生成ビデオ複数言語対応

万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。

テキスト生成ビデオ複数言語対応

Wan2.1 T2V 14B Gguf

GGUF形式に変換されたテキスト生成動画モデルで、ComfyUI-GGUFカスタムノードを使用可能

テキスト生成ビデオ

CogVideoXは清影に由来するオープンソースの動画生成モデルで、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。

テキスト生成ビデオ英語

AnimateLCMは個人化された動画データを必要としない効率的な個性化スタイル動画生成モデルで、わずか4ステップの推論で高品質な動画を生成できます。

テキスト生成ビデオ

Wan動画のGGUF量子化バージョンはテキストから動画を生成するモデルで、古いまたは低スペックマシンに適しており、GGUFファイルを通じた効率的な推論をサポートします。

テキスト生成ビデオ英語

Ltxv 13b 0.9.7 Dev GGUF

Lightricks/LTX-Videoの13b-0.9.7-devバリアントをGGUF量子化したバージョンで、テキストから動画生成および画像から動画生成タスクをサポートします。

テキスト生成ビデオ英語

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3Bはテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭フレーム・末尾フレーム予測をサポートしています。

テキスト生成ビデオ複数言語対応

Wan2.1 T2V 1.3B

万2.1は包括的にオープンな動画基盤モデルで、動画生成の境界を突破し、テキストから動画生成、画像から動画生成など多様なタスクをサポートします。

テキスト生成ビデオ複数言語対応

Clip4clip Webvid150k

WebVidデータセットのサブセットでトレーニングされたCLIP4Clipビデオ-テキスト検索モデル、大規模なビデオ-テキスト検索アプリケーション向け

テキスト生成ビデオ

Text To Video Ms 1.7b

多段階テキストから動画生成拡散モデルに基づき、英語の記述テキストを入力すると、テキストに合致した動画を返す

テキスト生成ビデオ

Wan2.1 Fun 14B InP Gguf

阿里巴巴PAIがリリースした14Bパラメータ規模のマルチモーダルモデルで、テキストから動画生成タスクをサポート

テキスト生成ビデオ複数言語対応

Zeroscope V2 576w

Modelscopeベースの透かしなし動画生成モデル、16:9画面比率と滑らかな動画出力を最適化

テキスト生成ビデオ

Cogvideox1.5 5B

CogVideoXは清影に似たオープンソースの動画生成モデルで、高解像度動画生成をサポートしています

テキスト生成ビデオ英語

Wan2.1 Fun 14B Control

マルチ解像度トレーニング及び先頭フレームと末尾フレーム予測をサポートするテキストから動画生成モデル

テキスト生成ビデオ複数言語対応

VACE Wan2.1 1.3B Preview

VACEは、全能型のビデオ創作と編集モデルで、参照ビデオ生成、ビデオからビデオへの編集、マスクビデオからビデオへの編集などの様々なタスクをサポートします。

テキスト生成ビデオ複数言語対応

Wan2.1 VACE 14B

Wan2.1は包括的でオープンな動画基盤モデルであり、動画生成の境界を突破し、様々な動画生成と編集タスクをサポートします。

テキスト生成ビデオ複数言語対応

Llava NeXT Video 7B DPO

LLaVA-Next-Videoはオープンソースのマルチモーダルダイアログモデルで、大規模言語モデルをマルチモーダル指示追従データで微調整しており、ビデオとテキストのマルチモーダルインタラクションをサポートします。

テキスト生成ビデオ

Lightricks/LTX-Videoモデルを基にしたGGUF量子化バージョンで、テキストから動画生成、画像から動画生成、動画から動画生成のタスクをサポート

テキスト生成ビデオ英語

Wan2.1 Fun 14B InP

阿里雲PAIチームが開発したテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポート

テキスト生成ビデオ複数言語対応

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3BはアリババPAIチームによって開発されたテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポートしています。

テキスト生成ビデオ複数言語対応

Cosmos Reason1 7B GGUF

Cosmos-Reason1はNVIDIAが開発した物理AIモデルで、物理常識を理解し、長鎖思考推論を通じて身体化された意思決定の自然言語を生成できます。

テキスト生成ビデオ

Transformers 英語

万2.1版はオープンで先進的な大規模動画生成モデルで、テキストから動画生成、画像から動画生成など多様なタスクをサポートし、コンシューマー向けGPUに対応しています。

テキスト生成ビデオ複数言語対応

Ltxv 13b 0.9.7 Distilled GGUF

LTX-Videoはテキストから動画を生成するモデルで、テキストや画像から動画コンテンツを生成できます。

テキスト生成ビデオ英語

Hunyuanvideo Gguf

Tencent幻影動画モデルのGGUF量子化バージョン、ComfyUI専用設計、テキストから動画生成タスク用

テキスト生成ビデオ

Animatediff Motion Lora Tilt Up

動的LoRAsモデル、アニメーションに特定の種類のモーション効果を追加

テキスト生成ビデオ

MoviiGen 1.1はWan2.1を微調整した映画級ビデオ生成モデルで、映画美学と視覚品質に優れた性能を発揮します。

テキスト生成ビデオ英語

Wan2.1 Fun 14B Control Gguf

阿里巴巴PAIがリリースした14Bパラメータ規模のマルチモーダルモデルで、テキストから動画生成タスクをサポート

テキスト生成ビデオ複数言語対応

Xclip Base Patch16 Zero Shot

X-CLIPはCLIPのミニマルな拡張で、汎用的な動画と言語の理解のために設計されており、(動画、テキスト)ペアで対照的に訓練され、ゼロショット、少数ショット、または完全教師ありの動画分類や動画-テキスト検索などのタスクに適しています。

テキスト生成ビデオ

Transformers 英語

Cosmos 1.0 Diffusion 7B Text2World

NVIDIAが開発した拡散アーキテクチャに基づくマルチモーダル世界ファウンデーションモデルで、テキスト入力に基づいて高品質な物理知覚ビデオを生成可能

テキスト生成ビデオ

LTX Video Diffusers

Diffusersで実装されたLTX-Videoモデルで、テキストや画像から高品質な動画を生成可能

テキスト生成ビデオ

アリババグループのTongyi Labが開発したオープンソースの動画合成コードライブラリで、複数の先進的な動画生成モデルを統合

テキスト生成ビデオ

LTX Video 0.9.1 Diffusers

Diffusersフォーマットに基づくLTX-Videoモデルで、テキストから動画生成と画像から動画生成機能をサポート

テキスト生成ビデオ

Skyreels V2 T2V 14B 720P

SkyReels V2は無限長の映画生成モデルで、自己回帰拡散強制アーキテクチャを採用し、高解像度動画生成をサポートします。

テキスト生成ビデオ

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase