模型简介
模型特点
模型能力
使用案例
🚀 SkyReels V2: 无限长度电影生成模型
SkyReels V2 是全球首个采用扩散强制框架的无限长度电影生成模型,它融合了多模态大语言模型、多阶段预训练、强化学习和扩散强制等技术,能实现故事生成、图像转视频合成等多种应用,在视频生成领域具有显著优势。
🚀 快速开始
安装
# 克隆仓库
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# 安装依赖。测试环境使用 Python 3.10.12
pip install -r requirements.txt
模型下载
你可以从 Hugging Face 下载我们的模型:
类型 | 模型变体 | 推荐高度/宽度/帧数 | 链接 |
---|---|---|---|
扩散强制 | 1.3B - 540P | 544 * 960 * 97f | 🤗 Huggingface 🤖 ModelScope |
扩散强制 | 5B - 540P | 544 * 960 * 97f | 即将推出 |
扩散强制 | 5B - 720P | 720 * 1280 * 121f | 即将推出 |
扩散强制 | 14B - 540P | 544 * 960 * 97f | 🤗 Huggingface 🤖 ModelScope |
扩散强制 | 14B - 720P | 720 * 1280 * 121f | 🤗 Huggingface 🤖 ModelScope |
文本转视频 | 1.3B - 540P | 544 * 960 * 97f | 即将推出 |
文本转视频 | 5B - 540P | 544 * 960 * 97f | 即将推出 |
文本转视频 | 5B - 720P | 720 * 1280 * 121f | 即将推出 |
文本转视频 | 14B - 540P | 544 * 960 * 97f | 🤗 Huggingface 🤖 ModelScope |
文本转视频 | 14B - 720P | 720 * 1280 * 121f | 🤗 Huggingface 🤖 ModelScope |
图像转视频 | 1.3B - 540P | 544 * 960 * 97f | 🤗 Huggingface 🤖 ModelScope |
图像转视频 | 5B - 540P | 544 * 960 * 97f | 即将推出 |
图像转视频 | 5B - 720P | 720 * 1280 * 121f | 即将推出 |
图像转视频 | 14B - 540P | 544 * 960 * 97f | 🤗 Huggingface 🤖 ModelScope |
图像转视频 | 14B - 720P | 720 * 1280 * 121f | 🤗 Huggingface 🤖 ModelScope |
镜头导演 | 5B - 540P | 544 * 960 * 97f | 即将推出 |
镜头导演 | 5B - 720P | 720 * 1280 * 121f | 即将推出 |
镜头导演 | 14B - 720P | 720 * 1280 * 121f | 即将推出 |
下载完成后,在生成命令中设置模型路径。
单 GPU 推理
用于长视频生成的扩散强制
扩散强制 版本的模型使我们能够生成无限长度的视频。该模型支持 文本转视频 (T2V) 和 图像转视频 (I2V) 任务,并且可以在同步和异步模式下进行推理。以下是两个长视频生成的运行脚本示例。如果你想调整推理参数,例如视频时长、推理模式,请先阅读下面的注意事项。
10 秒视频的同步生成
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同步推理
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
30 秒视频的异步生成
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 异步推理
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 5 \
--causal_block_size 5 \
--base_num_frames 97 \
--num_frames 737 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload
⚠️ 重要提示
- 如果你想运行 图像转视频 (I2V) 任务,请在命令中添加
--image ${image_path}
,并且最好使用类似 文本转视频 (T2V) 的提示词,其中包含一些第一帧图像的描述。- 对于长视频生成,你可以直接更改
--num_frames
,例如,--num_frames 257
用于 10 秒视频,--num_frames 377
用于 15 秒视频,--num_frames 737
用于 30 秒视频,--num_frames 1457
用于 60 秒视频。该数字与指定时长的逻辑帧数并不严格对齐,但与一些训练参数对齐,这意味着它可能表现更好。当你使用causal_block_size > 1
的异步推理时,应谨慎设置--num_frames
。- 你可以使用
--ar_step 5
启用异步推理。在异步推理时,建议设置--causal_block_size 5
,而同步生成时不应该设置该参数。请记住,每次迭代输入到模型中的帧潜在数量,例如基本帧潜在数量(例如,对于base_num_frames = 97
,(97 - 1) // 4 + 1 = 25)和最后一次迭代的数量(例如,对于base_num_frames = 97
,num_frames = 237
,overlap_history = 17
,(237 - 97 - (97 - 17) x 1 + 17 - 1) // 4 + 1 = 20),必须能被causal_block_size
整除。如果你发现计算和设置合适的值太困难,只需使用上面推荐的设置即可。异步推理将需要更多步骤来扩散整个序列,这意味着它将比同步模式慢。在我们的实验中,异步推理可能会提高指令遵循和视觉一致性性能。- 为了减少峰值显存,只需降低
--base_num_frames
,例如降至 77 或 57,同时保持你想要生成的相同生成长度--num_frames
。这可能会稍微降低视频质量,并且不应设置得太小。--addnoise_condition
用于通过向干净条件添加一些噪声来帮助平滑长视频生成。过大的噪声也会导致不一致。推荐值为 20,你可以尝试更大的值,但建议不超过 50。- 使用 1.3B 模型生成 540P 视频大约需要 14.7GB 的峰值显存,而使用 14B 模型生成相同分辨率的视频大约需要 51.2GB 的峰值显存。
文本转视频和图像转视频
# 运行文本转视频生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
⚠️ 重要提示
- 当使用 图像转视频 (I2V) 模型时,你必须使用
--image ${image_path}
参数提供输入图像。对于 I2V 模型,建议设置--guidance_scale 5.0
和--shift 3.0
。- 使用 1.3B 模型生成 540P 视频大约需要 14.7GB 的峰值显存,而使用 14B 模型生成相同分辨率的视频大约需要 43.4GB 的峰值显存。
提示词增强器
提示词增强器基于 Qwen2.5 - 32B - Instruct 实现,并通过 --prompt_enhancer
参数使用。它对于短提示词效果理想,而对于长提示词,它可能会生成过长的提示词,导致生成的视频过度饱和。如果你使用 --prompt_enhancer
,GPU 的峰值内存为 64G +。如果你想单独获取增强后的提示词,也可以单独运行提示词增强器脚本进行测试。步骤如下:
cd skyreels_v2_infer/pipelines
python3 prompt_enhancer.py --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface."
⚠️ 重要提示
- 如果使用
--use_usp
,则不允许使用--prompt_enhancer
。我们建议先运行skyreels_v2_infer/pipelines/prompt_enhancer.py
脚本生成增强后的提示词,然后再启用--use_usp
参数。
高级配置选项
以下是你可以自定义的视频生成关键参数:
参数 | 推荐值 | 描述 |
---|---|---|
--prompt | 用于生成视频的文本描述 | |
--image | 图像转视频生成的输入图像路径 | |
--resolution | 540P 或 720P | 输出视频分辨率(根据模型类型选择) |
--num_frames | 97 或 121 | 要生成的总帧数(540P 模型为 97,720P 模型为 121) |
--inference_steps | 50 | 去噪步骤数 |
--fps | 24 | 输出视频的帧率 |
--shift | 8.0 或 5.0 | 流匹配调度器参数(T2V 为 8.0,I2V 为 5.0) |
--guidance_scale | 6.0 或 5.0 | 控制文本遵循强度(T2V 为 6.0,I2V 为 5.0) |
--seed | 用于可重复结果的固定种子(省略则随机生成) | |
--offload | True | 将模型组件卸载到 CPU 以减少显存使用(推荐) |
--use_usp | True | 启用 xDiT USP 多 GPU 加速 |
--outdir | ./video_out | 生成视频的保存目录 |
--prompt_enhancer | True | 将提示词扩展为更详细的描述 |
--teacache | False | 启用 teacache 以加快推理速度 |
--teacache_thresh | 0.2 | 加速越快,质量越差 |
--use_ret_steps | False | teacache 的保留步骤 |
扩散强制附加参数
参数 | 推荐值 | 描述 |
---|---|---|
--ar_step | 0 | 控制异步推理(0 表示同步模式) |
--base_num_frames | 97 或 121 | 基本帧数(540P 为 97,720P 为 121) |
--overlap_history | 17 | 长视频中用于平滑过渡的重叠帧数 |
--addnoise_condition | 20 | 提高长视频生成的一致性 |
--causal_block_size | 5 | 使用异步推理(--ar_step > 0 )时推荐 |
使用 xDiT USP 进行多 GPU 推理
我们使用 xDiT USP 来加速推理。例如,要使用 2 个 GPU 生成视频,可以使用以下命令:
扩散强制
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 扩散强制同步推理
torchrun --nproc_per_node=2 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--use_usp \
--offload \
--seed 42
文本转视频和图像转视频
# 运行文本转视频生成
model_id=Skywork/SkyReels-V2-T2V-14B-540P
torchrun --nproc_per_node=2 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--offload \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--use_usp \
--seed 42
⚠️ 重要提示
- 当使用 图像转视频 (I2V) 模型时,你必须使用
--image ${image_path}
参数提供输入图像。对于 I2V 模型,建议设置--guidance_scale 5.0
和--shift 3.0
。
✨ 主要特性
无限长度视频生成
引入扩散强制 Transformer,使模型能够生成无限长度的视频,突破了传统视频生成模型在视频时长上的限制。
多模态融合
融合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强制等技术,实现全面优化,提升视频生成的质量和性能。
多种应用支持
支持故事生成、图像转视频合成、镜头导演功能和多主体一致视频生成等多种实际应用。
高性能视频字幕模型
使用 SkyCaptioner - V1 作为视频字幕模型,在视频内容标注方面表现出色,提高了数据标注的准确性和效率。
强化学习优化
通过强化学习提升生成模型的运动质量,解决了生成模型在处理大变形运动和遵循物理定律方面的问题。
📚 详细文档
摘要
近期视频生成的进展由扩散模型和自回归框架推动,但在协调提示词遵循、视觉质量、运动动态和时长方面仍存在关键挑战:为提高时间视觉质量而牺牲运动动态,为优先考虑分辨率而限制视频时长(5 - 10 秒),以及由于通用多模态大语言模型无法解释电影语法(如镜头构图、演员表情和相机运动)而导致的镜头感知生成不足。这些相互交织的限制阻碍了逼真的长格式合成和专业电影风格的生成。
为解决这些限制,我们推出了 SkyReels - V2,这是世界上第一个使用扩散强制框架的无限长度电影生成模型。我们的方法融合了多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强制技术,以实现全面优化。除了技术创新,SkyReels - V2 还支持多种实际应用,包括故事生成、图像转视频合成、镜头导演功能,以及通过我们的 Skyreels - A2 系统实现多主体一致的视频生成。
SkyReels - V2 的方法
SkyReels - V2 的方法由几个相互关联的组件组成。它从一个全面的数据处理管道开始,准备各种质量的训练数据。其核心是视频字幕器架构,为视频内容提供详细的注释。该系统采用多任务预训练策略来构建基本的视频生成能力。训练后的优化包括强化学习以提高运动质量、扩散强制训练以生成扩展视频,以及高质量监督微调(SFT)阶段以进行视觉细化。该模型在优化的计算基础设施上运行,以实现高效的训练和推理。SkyReels - V2 支持多种应用,包括故事生成、图像转视频合成、镜头导演功能和元素转视频生成。
SkyReels - V2 的关键贡献
视频字幕器
SkyCaptioner - V1 作为我们的数据标注视频字幕模型。该模型在基础模型 Qwen2.5 - VL - 72B - Instruct 的字幕结果和子专家字幕器的基础上,在平衡的视频数据上进行训练。平衡的视频数据是一个精心策划的约 200 万个视频的数据集,以确保概念平衡和标注质量。基于 Qwen2.5 - VL - 7B - Instruct 基础模型,SkyCaptioner - V1 进行微调,以提高在特定领域视频字幕任务中的性能。为了与最先进的模型进行性能比较,我们使用 1000 个样本的测试集对不同字幕领域的准确性进行了手动评估。提出的 SkyCaptioner - V1 在基线模型中实现了最高的平均准确率,并在与镜头相关的领域显示出显著的结果。
模型 | Qwen2.5 - VL - 7B - Ins. | Qwen2.5 - VL - 72B - Ins. | Tarsier2 - Recap - 7b | SkyCaptioner - V1 |
---|---|---|---|---|
平均准确率 | 51.4% | 58.7% | 49.4% | 76.3% |
镜头类型 | 76.8% | 82.5% | 60.2% | 93.7% |
镜头角度 | 60.0% | 73.7% | 52.4% | 89.8% |
镜头位置 | 28.4% | 32.7% | 23.6% | 83.1% |
相机运动 | 62.0% | 61.2% | 45.3% | 85.3% |
表情 | 43.6% | 51.5% | 54.3% | 68.8% |
TYPES_type | 43.5% | 49.7% | 47.6% | 82.5% |
TYPES_sub_type | 38.9% | 44.9% | 45.9% | 75.4% |
外观 | 40.9% | 52.0% | 45.6% | 59.3% |
动作 | 32.4% | 52.0% | 69.8% | 68.8% |
位置 | 35.4% | 48.6% | 45.5% | 57.5% |
是否为主主体 | 58.5% | 68.7% | 69.7% | 80.9% |
环境 | 70.4% | 72.7% | 61.4% | 70.5% |
照明 | 77.1% | 80.0% | 21.2% | 76.5% |
强化学习
受之前大语言模型成功的启发,我们提出通过强化学习来提升生成模型的性能。具体来说,我们关注运动质量,因为我们发现生成模型的主要缺点是:
- 生成模型在处理大的、可变形的运动时表现不佳。
- 生成的视频可能违反物理定律。
为避免在其他指标(如文本对齐和视频质量)上的下降,我们确保偏好数据对具有可比的文本对齐和视频质量,而仅运动质量不同。这一要求在获取偏好标注时带来了更大的挑战,因为人工标注的成本本来就更高。为解决这一挑战,我们提出了一种半自动管道,将自动生成的运动对和人工标注结果进行战略性结合。这种混合方法不仅扩大了数据规模,还通过精心策划的质量控制提高了与人类偏好的一致性。利用这个增强的数据集,我们首先训练了一个专门的奖励模型,以捕捉配对样本之间的通用运动质量差异。这个学习到的奖励函数随后指导直接偏好优化(DPO)的样本选择过程,提升了生成模型的运动质量。
扩散强制
我们引入了扩散强制 Transformer,以解锁模型生成长视频的能力。扩散强制是一种训练和采样策略,其中每个令牌被分配一个独立的噪声水平。这允许令牌根据任意的、每个令牌的时间表进行去噪。从概念上讲,这种方法类似于一种部分掩码形式:噪声为零的令牌完全未被掩码,而完全噪声的令牌则完全被掩码。扩散强制训练模型“解掩码”任何可变噪声令牌的组合,使用较干净的令牌作为条件信息来指导噪声令牌的恢复。在此基础上,我们的扩散强制 Transformer 可以根据前一段的最后几帧无限扩展视频生成。请注意,同步全序列扩散是扩散强制的一种特殊情况,其中所有令牌共享相同的噪声水平。这种关系使我们能够从全序列扩散模型微调扩散强制 Transformer。
高质量监督微调(SFT)
我们分别在 540p 和 720p 分辨率下实施了两个连续的高质量监督微调(SFT)阶段,初始 SFT 阶段在预训练后立即进行,但在强化学习(RL)阶段之前。这个第一阶段的 SFT 作为概念平衡训练器,基于仅使用 fps24 视频数据的基础模型预训练结果,同时战略性地移除 FPS 嵌入组件以简化架构。使用高质量概念平衡样本进行训练,这个阶段为后续训练过程建立了优化的初始化参数。在此之后,我们在完成扩散强制阶段后执行了 720p 的二次高分辨率 SFT,纳入了相同的损失公式和通过手动过滤的更高质量概念平衡数据集。这个最终细化阶段专注于提高分辨率,从而进一步提升整体视频质量。
性能
人工评估
为了全面评估我们提出的方法,我们构建了 SkyReels - Bench 进行人工评估,并利用开源的 V - Bench 进行自动评估。这使我们能够将我们的模型与最先进的(SOTA)基线进行比较,包括开源和专有模型。
对于人工评估,我们设计了包含 1020 个文本提示词的 SkyReels - Bench,系统地评估三个维度:指令遵循、运动质量、一致性和视觉质量。这个基准旨在评估文本转视频(T2V)和图像转视频(I2V)生成模型,提供跨不同生成范式的全面评估。为确保公平性,所有模型在默认设置下以一致的分辨率进行评估,并且不应用生成后过滤。
文本转视频模型
模型名称 | 平均得分 | 指令遵循 | 一致性 | 视觉质量 | 运动质量 |
---|---|---|---|---|---|
Runway - Gen3 Alpha | 2.53 | 2.19 | 2.57 | 3.23 | 2.11 |
HunyuanVideo - 13B | 2.82 | 2.64 | 2.81 | 3.20 | 2.61 |
Kling - 1.6 STD Mode | 2.99 | 2.77 | 3.05 | 3.39 | 2.76 |
Hailuo - 01 | 3.0 | 2.8 | 3.08 | 3.29 | 2.74 |
Wan2.1 - 14B | 3.12 | 2.91 | 3.31 | 3.54 | 2.71 |
SkyReels - V2 | 3.14 | 3.15 | 3.35 | 3.34 | 2.74 |
评估表明,我们的模型在 指令遵循(3.15) 方面比基线方法取得了显著进展,同时在不牺牲 一致性(3.35) 的情况下,在 运动质量(2.74) 方面保持了竞争力。
图像转视频模型
模型 | 平均得分 | 指令遵循 | 一致性 | 视觉质量 | 运动质量 |
---|---|---|---|---|---|
HunyuanVideo - 13B | 2.84 | 2.97 | 2.95 | 2.87 | 2.56 |
Wan2.1 - 14B | 2.85 | 3.10 | 2.81 | 3.00 | 2.48 |
Hailuo - 01 | 3.05 | 3.31 | 2.58 | 3.55 | 2.74 |
Kling - 1.6 Pro Mode | 3.4 | 3.56 | 3.03 | 3.58 | 3.41 |
Runway - Gen4 | 3.39 | 3.75 | 3.2 | 3.4 | 3.37 |
SkyReels - V2 - DF | 3.24 | 3.64 | 3.21 | 3.18 | 2.93 |
SkyReels - V2 - I2V | 3.29 | 3.42 | 3.18 | 3.56 | 3.01 |
我们的结果表明,SkyReels - V2 - I2V(3.29) 和 SkyReels - V2 - DF(3.24) 在开源模型中实现了最先进的性能,在所有质量维度上显著优于 HunyuanVideo - 13B(2.84)和 Wan2.1 - 14B(2.85)。SkyReels - V2 - I2V 的平均得分 3.29 表明其性能与专有模型 Kling - 1.6(3.4)和 Runway - Gen4(3.39)相当。
VBench
为了客观地将 SkyReels - V2 模型与其他领先的开源文本转视频模型进行比较,我们使用公共基准 V - Bench 进行了全面评估。我们的评估特别利用了基准的较长版本提示词。为了与基线模型进行公平比较,我们严格遵循它们推荐的推理设置。
模型 | 总得分 | 质量得分 | 语义得分 |
---|---|---|---|
OpenSora 2.0 | 81.5 % | 82.1 % | 78.2 % |
CogVideoX1.5 - 5B | 80.3 % | 80.9 % | 77.9 % |
HunyuanVideo - 13B | 82.7 % | 84.4 % | 76.2 % |
Wan2.1 - 14B | 83.7 % | 84.2 % | 81.4 % |
SkyReels - V2 | 83.9 % | 84.7 % | 80.8 % |
VBench 结果表明,SkyReels - V2 在与 HunyuanVideo - 13B 和 Wan2.1 - 14B 等所有比较模型的竞争中胜出,拥有最高的 总得分(83.9%) 和 质量得分(84.7%)。在这次评估中,语义得分略低于 Wan2.1 - 14B,而在人工评估中我们优于 Wan2.1 - 14B,主要差距归因于 V - Bench 对镜头场景语义遵循的评估不足。
🔧 技术细节
数据处理
SkyReels - V2 拥有全面的数据处理管道,用于准备各种质量的训练数据。该管道确保了数据的多样性和质量,为模型的训练提供了坚实的基础。
视频字幕器架构
SkyCaptioner - V1 作为核心的视频字幕模型,基于 Qwen2.5 - VL - 7B - Instruct 基础模型进行微调。它在大规模平衡视频数据集上进行训练,能够为视频内容提供详细准确的注释,有助于提高模型对视频内容的理解和生成能力。
多任务预训练
采用多任务预训练策略,使模型能够学习到视频生成的基本能力。通过在多个相关任务上进行训练,模型可以更好地捕捉视频的各种特征和模式,为后续的优化和应用奠定基础。
强化学习
为了提升生成模型的运动质量,引入了强化学习机制。通过构建专门的奖励模型,捕捉配对样本之间的运动质量差异,并利用直接偏好优化(DPO)来指导样本选择,从而提高生成视频的运动质量。
扩散强制 Transformer
扩散强制 Transformer 是实现长视频生成的关键技术。它通过为每个令牌分配独立的噪声水平,允许令牌根据任意的、每个令牌的时间表进行去噪。这种方法使得模型能够根据前一段的最后几帧无限扩展视频生成,突破了传统视频生成模型在视频时长上的限制。
高质量监督微调(SFT)
分别在 540p 和 720p 分辨率下进行两个连续的高质量监督微调阶段。初始 SFT 阶段在预训练后立即进行,旨在建立概念平衡和优化初始化参数。后续的 720p 高分辨率 SFT 阶段在扩散强制阶段之后进行,进一步提升视频的视觉质量和分辨率。
📄 许可证
本项目采用 skywork - license 许可证。
🎥 演示
📑 TODO 列表
- [x] 技术报告
- [x] 14B 和 1.3B 模型系列的检查点
- [x] 单 GPU 和多 GPU 推理代码
- [x] SkyCaptioner - V1:视频字幕模型
- [x] 提示词增强器
- [ ] Diffusers 集成
- [ ] 5B 模型系列的检查点
- [ ] 镜头导演模型的检查点
- [ ] 步骤和指导蒸馏模型的检查点
致谢
我们要感谢 Wan 2.1、XDit 和 Qwen 2.5 仓库的贡献者,感谢他们的开放研究和贡献。
引用
@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
title={SkyReels - V2: Infinite - length Film Generative Model},
author={Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Junchen Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengcheng Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
year={2025},
eprint={2504.13074},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.13074},
}



