SkyReels-V2-T2V-14B-720P開源模型 - 免費生成無限長度、高分辨率電影

首頁

Skyreels V2 T2V 14B 720P

由Skywork開發

SkyReels V2是一款無限長度電影生成模型，採用自迴歸擴散強制架構，支持高分辨率視頻生成。

文本生成視頻開源協議:其他 #無限長度視頻生成 #自迴歸擴散架構 #720P高清視頻

下載量 3,942

發布時間 : 4/18/2025

模型概述

SkyReels V2是一個先進的視頻生成模型，能夠生成無限長度的電影級視頻內容。它支持文生視頻(T2V)和圖生視頻(I2V)任務，並提供多種分辨率選項。

模型特點

無限長度視頻生成

採用自迴歸擴散強制架構，支持生成任意長度的視頻內容

高分辨率支持

提供540P和720P兩種分辨率選項，滿足不同畫質需求

多任務支持

同時支持文生視頻(T2V)和圖生視頻(I2V)任務

同步/異步推理

提供同步和異步兩種推理模式，適應不同應用場景

模型能力

文本到視頻生成

圖像到視頻轉換

長視頻生成

高分辨率視頻生成

使用案例

影視製作

短視頻創作

根據文本描述自動生成短視頻內容

可生成30秒以上的高質量視頻片段

廣告創意

產品展示視頻

根據產品圖片生成動態展示視頻

可生成720P高清產品展示視頻

🚀 SkyReels V2: 無限長度電影生成模型

SkyReels V2 是全球首個採用擴散強制框架的無限長度電影生成模型，它融合了多模態大語言模型、多階段預訓練、強化學習和擴散強制等技術，能實現故事生成、圖像轉視頻合成等多種應用，在視頻生成領域具有顯著優勢。

🚀 快速開始

安裝

# 克隆倉庫
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# 安裝依賴。測試環境使用 Python 3.10.12
pip install -r requirements.txt

模型下載

你可以從 Hugging Face 下載我們的模型：

類型	模型變體	推薦高度/寬度/幀數	鏈接
擴散強制	1.3B - 540P	544 * 960 * 97f	🤗 Huggingface 🤖 ModelScope
擴散強制	5B - 540P	544 * 960 * 97f	即將推出
擴散強制	5B - 720P	720 * 1280 * 121f	即將推出
擴散強制	14B - 540P	544 * 960 * 97f	🤗 Huggingface 🤖 ModelScope
擴散強制	14B - 720P	720 * 1280 * 121f	🤗 Huggingface 🤖 ModelScope
文本轉視頻	1.3B - 540P	544 * 960 * 97f	即將推出
文本轉視頻	5B - 540P	544 * 960 * 97f	即將推出
文本轉視頻	5B - 720P	720 * 1280 * 121f	即將推出
文本轉視頻	14B - 540P	544 * 960 * 97f	🤗 Huggingface 🤖 ModelScope
文本轉視頻	14B - 720P	720 * 1280 * 121f	🤗 Huggingface 🤖 ModelScope
圖像轉視頻	1.3B - 540P	544 * 960 * 97f	🤗 Huggingface 🤖 ModelScope
圖像轉視頻	5B - 540P	544 * 960 * 97f	即將推出
圖像轉視頻	5B - 720P	720 * 1280 * 121f	即將推出
圖像轉視頻	14B - 540P	544 * 960 * 97f	🤗 Huggingface 🤖 ModelScope
圖像轉視頻	14B - 720P	720 * 1280 * 121f	🤗 Huggingface 🤖 ModelScope
鏡頭導演	5B - 540P	544 * 960 * 97f	即將推出
鏡頭導演	5B - 720P	720 * 1280 * 121f	即將推出
鏡頭導演	14B - 720P	720 * 1280 * 121f	即將推出

下載完成後，在生成命令中設置模型路徑。

單 GPU 推理

用於長視頻生成的擴散強制

擴散強制 版本的模型使我們能夠生成無限長度的視頻。該模型支持 文本轉視頻 (T2V) 和 圖像轉視頻 (I2V) 任務，並且可以在同步和異步模式下進行推理。以下是兩個長視頻生成的運行腳本示例。如果你想調整推理參數，例如視頻時長、推理模式，請先閱讀下面的注意事項。

10 秒視頻的同步生成

model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同步推理
python3 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 0 \
  --base_num_frames 97 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

30 秒視頻的異步生成

model_id=Skywork/SkyReels-V2-DF-14B-540P
# 異步推理
python3 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 5 \
  --causal_block_size 5 \
  --base_num_frames 97 \
  --num_frames 737 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --offload

⚠️ 重要提示

如果你想運行 圖像轉視頻 (I2V) 任務，請在命令中添加 --image ${image_path}，並且最好使用類似 文本轉視頻 (T2V) 的提示詞，其中包含一些第一幀圖像的描述。

對於長視頻生成，你可以直接更改 --num_frames，例如，--num_frames 257 用於 10 秒視頻，--num_frames 377 用於 15 秒視頻，--num_frames 737 用於 30 秒視頻，--num_frames 1457 用於 60 秒視頻。該數字與指定時長的邏輯幀數並不嚴格對齊，但與一些訓練參數對齊，這意味著它可能表現更好。當你使用 causal_block_size > 1 的異步推理時，應謹慎設置 --num_frames。

你可以使用 --ar_step 5 啟用異步推理。在異步推理時，建議設置 --causal_block_size 5，而同步生成時不應該設置該參數。請記住，每次迭代輸入到模型中的幀潛在數量，例如基本幀潛在數量（例如，對於 base_num_frames = 97，(97 - 1) // 4 + 1 = 25）和最後一次迭代的數量（例如，對於 base_num_frames = 97，num_frames = 237，overlap_history = 17，(237 - 97 - (97 - 17) x 1 + 17 - 1) // 4 + 1 = 20），必須能被 causal_block_size 整除。如果你發現計算和設置合適的值太困難，只需使用上面推薦的設置即可。異步推理將需要更多步驟來擴散整個序列，這意味著它將比同步模式慢。在我們的實驗中，異步推理可能會提高指令遵循和視覺一致性性能。

為了減少峰值顯存，只需降低 --base_num_frames，例如降至 77 或 57，同時保持你想要生成的相同生成長度 --num_frames。這可能會稍微降低視頻質量，並且不應設置得太小。

--addnoise_condition 用於通過向乾淨條件添加一些噪聲來幫助平滑長視頻生成。過大的噪聲也會導致不一致。推薦值為 20，你可以嘗試更大的值，但建議不超過 50。

使用 1.3B 模型生成 540P 視頻大約需要 14.7GB 的峰值顯存，而使用 14B 模型生成相同分辨率的視頻大約需要 51.2GB 的峰值顯存。

文本轉視頻和圖像轉視頻

# 運行文本轉視頻生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

⚠️ 重要提示

當使用 圖像轉視頻 (I2V) 模型時，你必須使用 --image ${image_path} 參數提供輸入圖像。對於 I2V 模型，建議設置 --guidance_scale 5.0 和 --shift 3.0。

使用 1.3B 模型生成 540P 視頻大約需要 14.7GB 的峰值顯存，而使用 14B 模型生成相同分辨率的視頻大約需要 43.4GB 的峰值顯存。

提示詞增強器

提示詞增強器基於 Qwen2.5 - 32B - Instruct 實現，並通過 --prompt_enhancer 參數使用。它對於短提示詞效果理想，而對於長提示詞，它可能會生成過長的提示詞，導致生成的視頻過度飽和。如果你使用 --prompt_enhancer，GPU 的峰值內存為 64G +。如果你想單獨獲取增強後的提示詞，也可以單獨運行提示詞增強器腳本進行測試。步驟如下：

cd skyreels_v2_infer/pipelines
python3 prompt_enhancer.py --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface."

⚠️ 重要提示

如果使用 --use_usp，則不允許使用 --prompt_enhancer。我們建議先運行 skyreels_v2_infer/pipelines/prompt_enhancer.py 腳本生成增強後的提示詞，然後再啟用 --use_usp 參數。

高級配置選項

以下是你可以自定義的視頻生成關鍵參數：

參數	推薦值	描述
--prompt		用於生成視頻的文本描述
--image		圖像轉視頻生成的輸入圖像路徑
--resolution	540P 或 720P	輸出視頻分辨率（根據模型類型選擇）
--num_frames	97 或 121	要生成的總幀數（540P 模型為 97，720P 模型為 121）
--inference_steps	50	去噪步驟數
--fps	24	輸出視頻的幀率
--shift	8.0 或 5.0	流匹配調度器參數（T2V 為 8.0，I2V 為 5.0）
--guidance_scale	6.0 或 5.0	控制文本遵循強度（T2V 為 6.0，I2V 為 5.0）
--seed		用於可重複結果的固定種子（省略則隨機生成）
--offload	True	將模型組件卸載到 CPU 以減少顯存使用（推薦）
--use_usp	True	啟用 xDiT USP 多 GPU 加速
--outdir	./video_out	生成視頻的保存目錄
--prompt_enhancer	True	將提示詞擴展為更詳細的描述
--teacache	False	啟用 teacache 以加快推理速度
--teacache_thresh	0.2	加速越快，質量越差
--use_ret_steps	False	teacache 的保留步驟

擴散強制附加參數

參數	推薦值	描述
--ar_step	0	控制異步推理（0 表示同步模式）
--base_num_frames	97 或 121	基本幀數（540P 為 97，720P 為 121）
--overlap_history	17	長視頻中用於平滑過渡的重疊幀數
--addnoise_condition	20	提高長視頻生成的一致性
--causal_block_size	5	使用異步推理（`--ar_step > 0`）時推薦

使用 xDiT USP 進行多 GPU 推理

我們使用 xDiT USP 來加速推理。例如，要使用 2 個 GPU 生成視頻，可以使用以下命令：

擴散強制

model_id=Skywork/SkyReels-V2-DF-14B-540P
# 擴散強制同步推理
torchrun --nproc_per_node=2 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 0 \
  --base_num_frames 97 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --use_usp \
  --offload \
  --seed 42

文本轉視頻和圖像轉視頻

# 運行文本轉視頻生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
torchrun --nproc_per_node=2 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --offload \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --use_usp \
  --seed 42

⚠️ 重要提示

當使用 圖像轉視頻 (I2V) 模型時，你必須使用 --image ${image_path} 參數提供輸入圖像。對於 I2V 模型，建議設置 --guidance_scale 5.0 和 --shift 3.0。

✨ 主要特性

無限長度視頻生成

引入擴散強制 Transformer，使模型能夠生成無限長度的視頻，突破了傳統視頻生成模型在視頻時長上的限制。

多模態融合

融合多模態大語言模型（MLLM）、多階段預訓練、強化學習和擴散強制等技術，實現全面優化，提升視頻生成的質量和性能。

多種應用支持

支持故事生成、圖像轉視頻合成、鏡頭導演功能和多主體一致視頻生成等多種實際應用。

高性能視頻字幕模型

使用 SkyCaptioner - V1 作為視頻字幕模型，在視頻內容標註方面表現出色，提高了數據標註的準確性和效率。

強化學習優化

通過強化學習提升生成模型的運動質量，解決了生成模型在處理大變形運動和遵循物理定律方面的問題。

📚 詳細文檔

摘要

近期視頻生成的進展由擴散模型和自迴歸框架推動，但在協調提示詞遵循、視覺質量、運動動態和時長方面仍存在關鍵挑戰：為提高時間視覺質量而犧牲運動動態，為優先考慮分辨率而限制視頻時長（5 - 10 秒），以及由於通用多模態大語言模型無法解釋電影語法（如鏡頭構圖、演員表情和相機運動）而導致的鏡頭感知生成不足。這些相互交織的限制阻礙了逼真的長格式合成和專業電影風格的生成。

為解決這些限制，我們推出了 SkyReels - V2，這是世界上第一個使用擴散強制框架的無限長度電影生成模型。我們的方法融合了多模態大語言模型（MLLM）、多階段預訓練、強化學習和擴散強制技術，以實現全面優化。除了技術創新，SkyReels - V2 還支持多種實際應用，包括故事生成、圖像轉視頻合成、鏡頭導演功能，以及通過我們的 Skyreels - A2 系統實現多主體一致的視頻生成。

SkyReels - V2 的方法

SkyReels - V2 的方法由幾個相互關聯的組件組成。它從一個全面的數據處理管道開始，準備各種質量的訓練數據。其核心是視頻字幕器架構，為視頻內容提供詳細的註釋。該系統採用多任務預訓練策略來構建基本的視頻生成能力。訓練後的優化包括強化學習以提高運動質量、擴散強制訓練以生成擴展視頻，以及高質量監督微調（SFT）階段以進行視覺細化。該模型在優化的計算基礎設施上運行，以實現高效的訓練和推理。SkyReels - V2 支持多種應用，包括故事生成、圖像轉視頻合成、鏡頭導演功能和元素轉視頻生成。

mainpipeline

SkyReels - V2 的關鍵貢獻

視頻字幕器

SkyCaptioner - V1 作為我們的數據標註視頻字幕模型。該模型在基礎模型 Qwen2.5 - VL - 72B - Instruct 的字幕結果和子專家字幕器的基礎上，在平衡的視頻數據上進行訓練。平衡的視頻數據是一個精心策劃的約 200 萬個視頻的數據集，以確保概念平衡和標註質量。基於 Qwen2.5 - VL - 7B - Instruct 基礎模型，SkyCaptioner - V1 進行微調，以提高在特定領域視頻字幕任務中的性能。為了與最先進的模型進行性能比較，我們使用 1000 個樣本的測試集對不同字幕領域的準確性進行了手動評估。提出的 SkyCaptioner - V1 在基線模型中實現了最高的平均準確率，並在與鏡頭相關的領域顯示出顯著的結果。

模型	Qwen2.5 - VL - 7B - Ins.	Qwen2.5 - VL - 72B - Ins.	Tarsier2 - Recap - 7b	SkyCaptioner - V1
平均準確率	51.4%	58.7%	49.4%	76.3%
鏡頭類型	76.8%	82.5%	60.2%	93.7%
鏡頭角度	60.0%	73.7%	52.4%	89.8%
鏡頭位置	28.4%	32.7%	23.6%	83.1%
相機運動	62.0%	61.2%	45.3%	85.3%
表情	43.6%	51.5%	54.3%	68.8%

TYPES_type	43.5%	49.7%	47.6%	82.5%
TYPES_sub_type	38.9%	44.9%	45.9%	75.4%
外觀	40.9%	52.0%	45.6%	59.3%
動作	32.4%	52.0%	69.8%	68.8%
位置	35.4%	48.6%	45.5%	57.5%
是否為主主體	58.5%	68.7%	69.7%	80.9%
環境	70.4%	72.7%	61.4%	70.5%
照明	77.1%	80.0%	21.2%	76.5%

強化學習

受之前大語言模型成功的啟發，我們提出通過強化學習來提升生成模型的性能。具體來說，我們關注運動質量，因為我們發現生成模型的主要缺點是：

生成模型在處理大的、可變形的運動時表現不佳。
生成的視頻可能違反物理定律。

為避免在其他指標（如文本對齊和視頻質量）上的下降，我們確保偏好數據對具有可比的文本對齊和視頻質量，而僅運動質量不同。這一要求在獲取偏好標註時帶來了更大的挑戰，因為人工標註的成本本來就更高。為解決這一挑戰，我們提出了一種半自動管道，將自動生成的運動對和人工標註結果進行戰略性結合。這種混合方法不僅擴大了數據規模，還通過精心策劃的質量控制提高了與人類偏好的一致性。利用這個增強的數據集，我們首先訓練了一個專門的獎勵模型，以捕捉配對樣本之間的通用運動質量差異。這個學習到的獎勵函數隨後指導直接偏好優化（DPO）的樣本選擇過程，提升了生成模型的運動質量。

擴散強制

我們引入了擴散強制 Transformer，以解鎖模型生成長視頻的能力。擴散強制是一種訓練和採樣策略，其中每個令牌被分配一個獨立的噪聲水平。這允許令牌根據任意的、每個令牌的時間表進行去噪。從概念上講，這種方法類似於一種部分掩碼形式：噪聲為零的令牌完全未被掩碼，而完全噪聲的令牌則完全被掩碼。擴散強制訓練模型“解掩碼”任何可變噪聲令牌的組合，使用較乾淨的令牌作為條件信息來指導噪聲令牌的恢復。在此基礎上，我們的擴散強制 Transformer 可以根據前一段的最後幾幀無限擴展視頻生成。請注意，同步全序列擴散是擴散強制的一種特殊情況，其中所有令牌共享相同的噪聲水平。這種關係使我們能夠從全序列擴散模型微調擴散強制 Transformer。

高質量監督微調（SFT）

我們分別在 540p 和 720p 分辨率下實施了兩個連續的高質量監督微調（SFT）階段，初始 SFT 階段在預訓練後立即進行，但在強化學習（RL）階段之前。這個第一階段的 SFT 作為概念平衡訓練器，基於僅使用 fps24 視頻數據的基礎模型預訓練結果，同時戰略性地移除 FPS 嵌入組件以簡化架構。使用高質量概念平衡樣本進行訓練，這個階段為後續訓練過程建立了優化的初始化參數。在此之後，我們在完成擴散強制階段後執行了 720p 的二次高分辨率 SFT，納入了相同的損失公式和通過手動過濾的更高質量概念平衡數據集。這個最終細化階段專注於提高分辨率，從而進一步提升整體視頻質量。

性能

人工評估

為了全面評估我們提出的方法，我們構建了 SkyReels - Bench 進行人工評估，並利用開源的 V - Bench 進行自動評估。這使我們能夠將我們的模型與最先進的（SOTA）基線進行比較，包括開源和專有模型。

對於人工評估，我們設計了包含 1020 個文本提示詞的 SkyReels - Bench，系統地評估三個維度：指令遵循、運動質量、一致性和視覺質量。這個基準旨在評估文本轉視頻（T2V）和圖像轉視頻（I2V）生成模型，提供跨不同生成範式的全面評估。為確保公平性，所有模型在默認設置下以一致的分辨率進行評估，並且不應用生成後過濾。

文本轉視頻模型

模型名稱	平均得分	指令遵循	一致性	視覺質量	運動質量
Runway - Gen3 Alpha	2.53	2.19	2.57	3.23	2.11
HunyuanVideo - 13B	2.82	2.64	2.81	3.20	2.61
Kling - 1.6 STD Mode	2.99	2.77	3.05	3.39	2.76
Hailuo - 01	3.0	2.8	3.08	3.29	2.74
Wan2.1 - 14B	3.12	2.91	3.31	3.54	2.71
SkyReels - V2	3.14	3.15	3.35	3.34	2.74

評估表明，我們的模型在 指令遵循（3.15） 方面比基線方法取得了顯著進展，同時在不犧牲 一致性（3.35） 的情況下，在 運動質量（2.74） 方面保持了競爭力。

圖像轉視頻模型

模型	平均得分	指令遵循	一致性	視覺質量	運動質量
HunyuanVideo - 13B	2.84	2.97	2.95	2.87	2.56
Wan2.1 - 14B	2.85	3.10	2.81	3.00	2.48
Hailuo - 01	3.05	3.31	2.58	3.55	2.74
Kling - 1.6 Pro Mode	3.4	3.56	3.03	3.58	3.41
Runway - Gen4	3.39	3.75	3.2	3.4	3.37
SkyReels - V2 - DF	3.24	3.64	3.21	3.18	2.93
SkyReels - V2 - I2V	3.29	3.42	3.18	3.56	3.01

我們的結果表明，SkyReels - V2 - I2V（3.29） 和 SkyReels - V2 - DF（3.24） 在開源模型中實現了最先進的性能，在所有質量維度上顯著優於 HunyuanVideo - 13B（2.84）和 Wan2.1 - 14B（2.85）。SkyReels - V2 - I2V 的平均得分 3.29 表明其性能與專有模型 Kling - 1.6（3.4）和 Runway - Gen4（3.39）相當。

VBench

為了客觀地將 SkyReels - V2 模型與其他領先的開源文本轉視頻模型進行比較，我們使用公共基準 V - Bench 進行了全面評估。我們的評估特別利用了基準的較長版本提示詞。為了與基線模型進行公平比較，我們嚴格遵循它們推薦的推理設置。

模型	總得分	質量得分	語義得分
OpenSora 2.0	81.5 %	82.1 %	78.2 %
CogVideoX1.5 - 5B	80.3 %	80.9 %	77.9 %
HunyuanVideo - 13B	82.7 %	84.4 %	76.2 %
Wan2.1 - 14B	83.7 %	84.2 %	81.4 %
SkyReels - V2	83.9 %	84.7 %	80.8 %

VBench 結果表明，SkyReels - V2 在與 HunyuanVideo - 13B 和 Wan2.1 - 14B 等所有比較模型的競爭中勝出，擁有最高的 總得分（83.9%） 和 質量得分（84.7%）。在這次評估中，語義得分略低於 Wan2.1 - 14B，而在人工評估中我們優於 Wan2.1 - 14B，主要差距歸因於 V - Bench 對鏡頭場景語義遵循的評估不足。

🔧 技術細節

數據處理

SkyReels - V2 擁有全面的數據處理管道，用於準備各種質量的訓練數據。該管道確保了數據的多樣性和質量，為模型的訓練提供了堅實的基礎。

視頻字幕器架構

SkyCaptioner - V1 作為核心的視頻字幕模型，基於 Qwen2.5 - VL - 7B - Instruct 基礎模型進行微調。它在大規模平衡視頻數據集上進行訓練，能夠為視頻內容提供詳細準確的註釋，有助於提高模型對視頻內容的理解和生成能力。

多任務預訓練

採用多任務預訓練策略，使模型能夠學習到視頻生成的基本能力。通過在多個相關任務上進行訓練，模型可以更好地捕捉視頻的各種特徵和模式，為後續的優化和應用奠定基礎。

強化學習

為了提升生成模型的運動質量，引入了強化學習機制。通過構建專門的獎勵模型，捕捉配對樣本之間的運動質量差異，並利用直接偏好優化（DPO）來指導樣本選擇，從而提高生成視頻的運動質量。

擴散強制 Transformer

擴散強制 Transformer 是實現長視頻生成的關鍵技術。它通過為每個令牌分配獨立的噪聲水平，允許令牌根據任意的、每個令牌的時間表進行去噪。這種方法使得模型能夠根據前一段的最後幾幀無限擴展視頻生成，突破了傳統視頻生成模型在視頻時長上的限制。

高質量監督微調（SFT）

分別在 540p 和 720p 分辨率下進行兩個連續的高質量監督微調階段。初始 SFT 階段在預訓練後立即進行，旨在建立概念平衡和優化初始化參數。後續的 720p 高分辨率 SFT 階段在擴散強制階段之後進行，進一步提升視頻的視覺質量和分辨率。

📄 許可證

本項目採用 skywork - license 許可證。

🎥 演示

以上演示展示了使用我們的 SkyReels - V2 擴散強制模型生成的 30 秒視頻。

📑 TODO 列表

[x] 技術報告
[x] 14B 和 1.3B 模型系列的檢查點
[x] 單 GPU 和多 GPU 推理代碼
[x] SkyCaptioner - V1：視頻字幕模型
[x] 提示詞增強器
[ ] Diffusers 集成
[ ] 5B 模型系列的檢查點
[ ] 鏡頭導演模型的檢查點
[ ] 步驟和指導蒸餾模型的檢查點

致謝

我們要感謝 Wan 2.1、XDit 和 Qwen 2.5 倉庫的貢獻者，感謝他們的開放研究和貢獻。

引用

@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
      title={SkyReels - V2: Infinite - length Film Generative Model}, 
      author={Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Junchen Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengcheng Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
      year={2025},
      eprint={2504.13074},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.13074}, 
}