SkyReels-V1 - 混元 - T2Vオープンソース動画モデル - 顔の動きを捉え、映画レベルの光と影の美学を再現

ホーム

Skyreels V1 Hunyuan T2V

Skyworkによって開発

天工巻物V1は、人物を中心とした初のオープンソース高級ビデオ基礎モデルで、混元ビデオフレームワークを基盤とし、数千万の高品質な映画クリップで微調整され、顔の動的キャプチャや映画級のライティング美学などの核心的な強みを備えています。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #人物動画生成 #映画級ライティング #顔の微表情キャプチャ

ダウンロード数 1,899

リリース時間 : 2/13/2025

モデル概要

人物中心のテキストtoビデオモデルで、高品質なビデオ生成をサポートし、特に人物の表情や動作の自然な表現に優れています。

モデル特徴

オープンソース先進性

オープンソース分野で最先端のレベルに達し、Klingや海螺などの商用モデルに匹敵する性能

顔の動的キャプチャ

33種類の微表情を正確に認識し、400種類以上の自然な動作組み合わせをサポート、人間の感情表現をリアルに再現

映画級ライティング美学

ハリウッド級の映画データでトレーニングされ、各フレームの構図、俳優の動き、カメラアングルが映画の質感を表現

多段階トレーニングプロセス

ドメイン転移事前トレーニング、画像toビデオモデル事前トレーニング、高品質微調整の3段階トレーニング手法を採用

モデル能力

テキストtoビデオ生成

人物表情生成

自然な動作生成

映画級映像生成

使用事例

映画制作

ショートビデオ制作

テキスト記述に基づき高品質なショートビデオを生成

映画の質感を持つショートビデオクリップを生成

人物アニメーション

豊かな表情と自然な動作を持つ人物アニメーションを生成

人間の感情表現をリアルに再現

広告クリエイティブ

広告ビデオ生成

製品説明に基づき広告ビデオを生成

プロフェッショナルなレベルの広告コンテンツを生成

🚀 SkyReels V1: 人間中心のビデオ基礎モデル

SkyReels V1は、最初で最も高度なオープンソースの人間中心のビデオ基礎モデルです。このモデルは、高品質な映画やテレビのクリップを用いて訓練され、テキストから高品質なビデオを生成することができます。

Skyreels Logo

🌐 Github · 👋 Playground · 💬 Discord

このリポジトリには、SkyReels V1のテキストからビデオへのモデルのDiffusers形式のモデル重みが含まれています。推論コードは、私たちのGitHubリポジトリ SkyReels-V1 で見つけることができます。

🚀 クイックスタート

✨ 主な機能

導入

SkyReels V1は、最初で最も高度なオープンソースの人間中心のビデオ基礎モデルです。HunyuanVideo をO(10M)の高品質な映画やテレビのクリップでファインチューニングすることで、Skyreels V1は3つの主要な利点を提供します。

オープンソースのリーダーシップ：私たちのテキストからビデオへのモデルは、オープンソースモデルの中で最先端（SOTA）の性能を達成しており、KlingやHailuoなどの独自モデルと匹敵します。
高度な顔のアニメーション：33種類の異なる顔の表情を400以上の自然な動きの組み合わせで捉え、人間の感情を正確に反映します。
映画的な照明と美学：高品質なハリウッドレベルの映画やテレビのデータで訓練されており、生成される各フレームは構図、俳優の配置、カメラアングルなどで映画的な品質を持っています。

🔑 主要な特徴

1. 独自開発のデータクリーニングとアノテーションパイプライン

私たちのモデルは、独自開発のデータクリーニングとアノテーションパイプラインに基づいて構築されており、高品質な映画、テレビ、ドキュメンタリーのコンテンツの大規模なデータセットを作成します。

表情分類：人間の顔の表情を33種類の異なるタイプに分類します。
キャラクターの空間認識：3D人体再構築技術を利用して、ビデオ内の複数の人間の空間的な関係を理解し、映画レベルのキャラクター配置を可能にします。
行動認識：400以上の行動の意味単位を構築し、人間の行動を正確に理解します。
シーン理解：衣装、シーン、プロットのクロスモーダル相関分析を行います。

2. 多段階の画像からビデオへの事前学習

私たちの多段階の事前学習パイプラインは、HunyuanVideo の設計にインスパイアされており、以下の段階で構成されています。

第1段階：モデルのドメイン転送事前学習：大規模なデータセット（O(10M)の映画やテレビのコンテンツ）を使用して、テキストからビデオへのモデルを人間中心のビデオドメインに適応させます。
第2段階：画像からビデオへのモデルの事前学習：第1段階のテキストからビデオへのモデルを、conv-inパラメータを調整することで画像からビデオへのモデルに変換します。この新しいモデルは、第1段階で使用したのと同じデータセットで事前学習されます。
第3段階：高品質なファインチューニング：画像からビデオへのモデルを、元のデータセットの高品質なサブセットでファインチューニングし、優れた性能と品質を保証します。

📚 ドキュメント

モデルの紹介

モデル名	解像度	ビデオ長	FPS	ダウンロードリンク
SkyReels-V1-Hunyuan-I2V	544px960p	97	24	🤗 ダウンロード
SkyReels-V1-Hunyuan-T2V (現在)	544px960p	97	24	🤗 ダウンロード

使用方法

詳細については、ガイドを参照してください。

引用

@misc{SkyReelsV1,
  author = {SkyReels-AI},
  title = {Skyreels V1: Human-Centric Video Foundation Model},
  year = {2025},
  publisher = {Huggingface},
  journal = {Huggingface repository},
  howpublished = {\url{https://huggingface.co/Skywork/SkyReels-V1-Hunyuan-T2V}}
}