potat1オープンソースのテキストから動画への変換モデル - 無料で1024x576の動画コンテンツを簡単に生成

Potat1

camenduruによって開発

初のオープンソース1024x576テキストから動画へのモデル、ベースモデルを微調整

ダウンロード数 56

リリース時間 : 6/5/2023

モデル概要

Potat 1はテキストから動画を生成するモデルで、入力されたテキスト記述に基づいて高品質の動画コンテンツを生成できます。

高解像度動画生成

1024x576解像度の高品質動画生成をサポート

多段階訓練モデル

5000ステップから50000ステップまでの複数の訓練段階モデルを提供

オープンソースデータセット

訓練データセットは公開されており、2197の動画クリップと68388フレームのアノテーションを含む

テキストから動画への変換

高解像度動画生成

テキスト記述に基づく動的コンテンツ生成

クリエイティブコンテンツ生成

ショート動画制作

テキスト記述に基づいて自動的にクリエイティブなショート動画を生成

1024x576解像度の動画クリップを生成可能

教育コンテンツ

教育動画生成

シラバスに基づいて自動的に補助動画コンテンツを生成

Potat 1️⃣は、初のオープンソースの1024x576テキスト・ツー・ビデオモデルです🥳。このモデルは、テキスト入力から高品質なビデオを生成する能力を備えています。

🐣 新しいアップデートを受け取るには、こちらをフォローしてください https://twitter.com/camenduru
🔥 Discordサーバーに参加しましょう https://discord.gg/k5BwmmvJJU

00041-3056174990

https://huggingface.co/vdo/potat1-5000/tree/main
https://huggingface.co/vdo/potat1-10000/tree/main
https://huggingface.co/vdo/potat1-10000-base-text-encoder/tree/main
https://huggingface.co/vdo/potat1-15000/tree/main
https://huggingface.co/vdo/potat1-20000/tree/main
https://huggingface.co/vdo/potat1-25000/tree/main
https://huggingface.co/vdo/potat1-30000/tree/main
https://huggingface.co/vdo/potat1-35000/tree/main
https://huggingface.co/vdo/potat1-40000/tree/main
https://huggingface.co/vdo/potat1-45000/tree/main
https://huggingface.co/vdo/potat1-50000/tree/main
https://huggingface.co/vdo/potat1-50000-base-text-encoder/tree/main = https://huggingface.co/camenduru/potat1 (ここにいます)

属性	详情
モデルタイプ	プロトタイプモデル
訓練データ	2197クリップ、68388のタグ付きフレーム ( salesforce/blip2-opt-6.7b-coco )
訓練環境	https://lambdalabs.com ❤ 1xA100 (40GB)
訓練ステップ	10000