Cosmos-1.0-Diffusion-7B-Text2World开源模型 - 依据文本输入生成高质量物理感知视频

首页

Cosmos 1.0 Diffusion 7B Text2World

由 nvidia 开发

NVIDIA开发的基于扩散架构的多模态世界基础模型，能够根据文本输入生成高质量物理感知视频

文本生成视频开源协议:其他 #物理感知视频生成 #多模态扩散模型 #高帧率视频合成

下载量 5,011

发布时间 : 1/7/2025

模型简介

Cosmos是专为生成物理感知视频和物理AI开发设计的高性能预训练世界基础模型系列，支持文本、图像或视频输入生成动态视频

模型特点

多模态输入支持

支持文本、图像或视频作为输入条件生成连贯视频序列

物理感知生成

生成的视频具有物理合理性，适合物理AI开发应用

商业友好许可

允许商用和创建衍生模型，NVIDIA不对输出内容主张所有权

安全护栏机制

内置安全组件防止不当内容生成，规避机制将导致许可终止

模型能力

文本到视频生成

视频预测（基于首帧）

多分辨率输出

可变帧率控制

使用案例

娱乐媒体

短视频内容生成

根据剧本描述自动生成短视频内容

5秒1280x704分辨率视频

物理模拟

物理现象预测

基于初始状态预测物体运动轨迹

120帧物理合理运动序列

🚀 Cosmos-1.0-Diffusion：一套基于扩散模型的世界基础模型套件

Cosmos-1.0-Diffusion 是一系列高性能的预训练世界基础模型，专为生成具有物理感知的视频和世界状态而设计，可用于物理人工智能的开发。

Cosmos | 代码 | 论文 | 论文网站

🚀 快速开始

模型概述

描述

Cosmos世界基础模型 是一族高性能的预训练世界基础模型，专为生成具有物理感知的视频和世界状态而设计，用于物理人工智能的开发。

Cosmos扩散模型是一组基于扩散的世界基础模型，可根据文本、图像或视频输入生成动态、高质量的视频。它可以作为各种与世界生成相关的应用或研究的构建块。这些模型在NVIDIA开放模型许可协议下可用于商业用途。

模型开发者：NVIDIA

模型版本

在Cosmos 1.0版本中，Cosmos扩散世界基础模型家族包括以下模型：

Cosmos-1.0-Diffusion-7B-Text2World
- 根据文本描述，预测一个包含121帧的输出视频。
Cosmos-1.0-Diffusion-14B-Text2World
- 根据文本描述，预测一个包含121帧的输出视频。
Cosmos-1.0-Diffusion-7B-Video2World
- 根据文本描述和作为第一帧的图像，预测未来的120帧。
Cosmos-1.0-Diffusion-14B-Video2World
- 根据文本描述和作为第一帧的图像，预测未来的120帧。

许可证

该模型根据 NVIDIA开放模型许可证发布。如需定制许可证，请联系 cosmos-license@nvidia.com。

在NVIDIA开放模型许可证下，NVIDIA确认：

模型可用于商业用途。
您可以自由创建和分发衍生模型。
NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。

⚠️ 重要提示

如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏 或相关的安全护栏超参数、加密、安全、数字版权管理或认证机制，您在 NVIDIA开放模型许可协议下的权利将自动终止。 Cosmos-1.0-Guardrail 是此模型的安全护栏。

模型架构

Cosmos-1.0-Diffusion-7B-Text2World是一个用于潜在空间视频去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层作为构建块组成。交叉注意力层允许模型在去噪过程中以输入文本为条件。在每层之前，应用自适应层归一化来嵌入去噪的时间信息。当提供图像或视频作为输入时，它们的潜在帧会沿时间维度与生成的帧连接。在条件潜在帧中添加增强噪声以弥合训练和推理之间的差距。

输入/输出规格

属性	详情
输入
输入类型	文本
输入格式	字符串
输入参数	一维 (1D)
其他输入相关属性	输入字符串应包含少于300个单词，并应提供用于世界生成的描述性内容，例如场景描述、关键对象或角色、背景以及在5秒内要描绘的任何特定动作或运动。
输出
输出类型	视频
输出格式	mp4
输出参数	三维 (3D)
其他输出相关属性	默认情况下，生成的视频是一个5秒的剪辑，分辨率为1280x704像素，帧率为24帧/秒 (fps)。视频内容将输入文本描述可视化为一个简短的动画场景，在指定的时间限制内捕捉关键元素。宽高比和分辨率是可配置的，选项包括1:1 (960x960像素)、4:3 (960x704像素)、3:4 (704x960像素)、16:9 (1280x704像素) 和9:16 (704x1280像素)。帧率也可在12到40 fps的范围内调整。

软件集成

运行时引擎

支持的硬件微架构兼容性

NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Ampere

⚠️ 重要提示

我们仅测试了使用BF16精度进行推理。

操作系统

Linux（我们未在其他操作系统上进行测试）

使用示例

基础用法

import torch
from diffusers import CosmosTextToWorldPipeline
from diffusers.utils import export_to_video

model_id = "nvidia/Cosmos-1.0-Diffusion-7B-Text2World"
pipe = CosmosTextToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves. The robot's metallic body gleams under the bright, even lighting, highlighting its futuristic design and intricate joints. A glowing blue light emanates from its chest, adding a touch of advanced technology. The background is dominated by rows of boxes, suggesting a highly organized storage system. The floor is lined with wooden pallets, enhancing the industrial setting. The camera remains static, capturing the robot's poised stance amidst the orderly environment, with a shallow depth of field that keeps the focus on the robot while subtly blurring the background for a cinematic effect."

output = pipe(prompt=prompt).frames[0]
export_to_video(output, "output.mp4", fps=30)

更多信息请参阅diffusers 文档。

评估

请参阅我们的技术论文以获取详细的评估信息。

推理时间和GPU内存使用

以下提供的数字可能会因系统规格而异，仅供参考。

我们报告了端到端推理期间观察到的最大GPU内存使用情况。此外，我们提供了一系列模型卸载策略，以帮助用户有效管理GPU内存使用。

对于内存有限的GPU（例如具有24 GB内存的RTX 3090/4090），我们建议完全卸载所有模型。对于高端GPU，用户可以根据以下提供的数字选择最合适的卸载策略。

卸载策略	7B Text2World	14B Text2World
卸载提示上采样器	74.0 GB	> 80.0 GB
卸载提示上采样器和护栏	57.1 GB	70.5 GB
卸载提示上采样器、护栏和T5编码器	38.5 GB	51.9 GB
卸载提示上采样器、护栏、T5编码器和分词器	38.3 GB	51.7 GB
卸载提示上采样器、护栏、T5编码器、分词器和扩散模型	24.4 GB	39.0 GB

下表显示了在单个H100 GPU上的端到端推理运行时间，不包括模型初始化时间。

7B Text2World (卸载提示上采样器)	14B Text2World (卸载提示上采样器、护栏)
~380秒	~590秒

伦理考虑

NVIDIA认为可信AI是一项共同责任，我们已经制定了政策和实践，以支持各种AI应用的开发。当按照我们的服务条款下载或使用时，开发者应与他们的内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决意外的产品滥用问题。

如需了解有关该模型伦理考虑的更多详细信息，请参阅以下可解释性、偏差、安全与保障以及隐私的子卡片。请在此报告安全漏洞或NVIDIA AI相关问题。

附加承诺 (++)

我们重视您、数据集、它们所代表的多样性以及我们所承担的责任。此模型及其相关数据已经：

验证符合当前适用的披露法律、法规和行业标准。
验证符合适用的隐私标签要求。
标注以描述收集者/来源（NVIDIA或第三方）。
表征技术限制。
审查以确保适当的披露可供NVIDIA数据主体访问、维护并符合其要求。
在发布前进行审查。
标记已知的限制和潜在的安全影响。

偏差

领域	响应
模型设计和测试中受不利影响群体受保护类别的参与考虑	无
为减轻不必要的偏差所采取的措施	无

可解释性

领域	响应
预期应用和领域	世界生成
模型类型	变压器
预期用户	物理AI开发者
输出	视频
描述模型的工作原理	根据视频输入生成视频
技术限制	模型可能无法准确遵循视频输入。
验证是否符合规定的NVIDIA质量标准	是
性能指标	定量和定性评估
潜在已知风险	模型的输出可以生成各种形式的视频，包括可能被认为有毒、冒犯性或不适当的视频。
许可	NVIDIA开放模型许可证

隐私

领域	响应
是否可生成或逆向工程个人信息	未知
是否使用受保护类别的数据创建此模型	未知
是否获得使用任何个人数据的同意	未知
数据集多久审查一次	发布前
是否有机制来尊重数据主体访问或删除个人数据的权利	不适用
如果为模型开发收集了个人数据，是否由NVIDIA直接收集	不适用
如果NVIDIA为模型开发收集了个人数据，是否维护或有权访问向数据主体作出的披露	不适用
如果为开发此AI模型收集了个人数据，是否仅收集了所需的数据	不适用
训练中使用的所有数据集是否有来源证明	是
数据标注（注释、元数据）是否符合隐私法	是
如果提出了数据校正或删除请求，数据是否符合数据主体的请求	不适用

安全

领域	响应
模型应用	世界生成
描述关键生命影响（如果存在）	未知
用例限制	NVIDIA开放模型许可证
模型和数据集限制	应用最小特权原则 (PoLP) 限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制，并遵守数据集许可约束。模型检查点可在Hugging Face上获取，并可能在云提供商的模型目录中提供。

许可证

此模型根据 NVIDIA开放模型许可证发布。该许可证的详细内容如下：

NVIDIA开放模型许可协议

版本发布日期：2025年1月6日

本NVIDIA开放模型许可协议（以下简称“协议”）是您所代表的法律实体（如果未确定实体，则为您本人）与NVIDIA Corporation及其附属公司（“NVIDIA”）之间的法律协议，规范您根据本协议使用NVIDIA向您提供的模型的行为。NVIDIA和您各自为“一方”，合称为“双方”。

根据本协议发布的NVIDIA模型旨在允许自由使用，并促进人工智能技术的进一步发展。在遵守本协议条款的前提下，NVIDIA确认：

模型可用于商业用途。
您可以自由创建和分发衍生模型。
NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。

通过使用、复制、修改、分发、执行或展示模型或衍生模型的任何部分或元素，或以其他方式接受本协议的条款，您同意受本协议的约束。

定义

以下定义适用于本协议： 1.1. “NVIDIA Cosmos模型” 指根据本协议共享的多模态模型。 1.2. “衍生模型” 指所有 (a) 对模型的修改，(b) 基于模型的作品，以及 (c) 模型的任何其他衍生作品。输出不是衍生模型。 1.3. “法律实体” 指行动实体以及所有对该实体具有 “控制权”、受该实体 “控制” 或与该实体处于共同 “控制” 之下的其他实体的总和。就本定义而言，“控制” 指 (a) 直接或间接导致该实体的方向或管理的权力，无论是通过合同还是其他方式，或 (b) 拥有百分之五十 (50%) 或更多的已发行股份，或 (c) 对该实体的受益所有权。 1.4. “模型” 指根据本协议共享的机器学习模型、软件、检查点、学习到的权重、算法、参数、配置文件和文档。 1.5. “您” 或 “您的” 指行使本协议授予的权限的个人或法律实体。

使用条件、许可授予、AI伦理和知识产权所有权

2.1. 使用条件。模型和任何衍生模型受本协议第2节和第3节所述的附加条款约束，并规范您的使用。如果您对任何实体提起版权或专利诉讼（包括诉讼中的交叉索赔或反诉），声称模型或衍生模型构成直接或间接的版权或专利侵权，则本协议授予您的该模型或衍生模型的任何许可将自该诉讼提起之日起终止。如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关的安全护栏超参数、加密、安全、数字版权管理或认证机制，您在本协议下的权利将自动终止。NVIDIA可随时更新本协议以遵守法律和监管要求，您同意遵守任何更新后的许可，否则停止复制、使用和分发模型及任何衍生模型。 2.2. 许可授予。此处授予的权利明确以您完全遵守本协议的条款为条件。在遵守本协议的条款和条件的前提下，NVIDIA特此授予您永久、全球、非排他、免费、免版税、可撤销（如第2.1节所述）的许可，以公开表演、公开展示、复制、使用、创作衍生作品、制造、委托制造、销售、要约销售、分发（通过多级分发）和进口模型。 2.3. AI伦理。根据本协议使用模型必须符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上发布的可信AI条款。 2.4. NVIDIA拥有模型以及NVIDIA创建的任何模型衍生作品。在NVIDIA对模型或其模型衍生作品的底层所有权权利的前提下，您是并将继续是您的模型衍生作品的所有者。NVIDIA不主张对输出拥有所有权。您对输出及其后续使用负责。除非本协议明确授予，(a) NVIDIA保留与模型相关的所有权利、权益和救济，(b) 未通过暗示、禁止反言或其他方式向您授予任何其他许可或权利。

再分发

您可以在任何介质中复制和分发模型或其衍生模型的副本，无论是否进行修改，但前提是您满足以下条件： 3.1. 如果您分发模型，您必须向模型的任何其他接收者提供本协议的副本，并在随副本提供的 “通知” 文本文件中包含以下归属声明：“由NVIDIA Corporation根据NVIDIA开放模型许可证许可”； 3.2. 如果您分发或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的产品或服务（包括AI模型），使用NVIDIA Cosmos模型创建衍生模型，或使用NVIDIA Cosmos模型或其输出来创建、训练、微调或以其他方式改进AI模型，您将在相关网站、用户界面、博客文章、关于页面或产品文档中包含 “基于NVIDIA Cosmos构建”； 3.3. 您可以在您的修改中添加自己的版权声明，并可以为您的修改或任何此类衍生模型的整体使用、复制或分发提供额外或不同的许可条款和条件，前提是您对模型的使用、复制和分发符合本协议规定的条件。

商标

本协议未授予使用NVIDIA的商号、商标、服务标记或产品名称的许可，除非在描述模型的来源和复制 “通知” 文本文件的内容时进行合理和惯常的使用。

保修免责声明

除非适用法律要求或书面同意，NVIDIA按 “现状” 提供模型，不提供任何形式的保证或条件，无论是明示的还是暗示的，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发模型、衍生模型和输出的适用性，并承担与您行使本协议下的权限相关的任何风险。

责任限制

在任何情况下，无论根据何种法律理论（包括侵权（包括疏忽）、合同或其他），除非适用法律要求（如故意和重大过失行为）或书面同意，NVIDIA均不对您承担损害赔偿责任，包括因本协议或使用或无法使用模型、衍生模型或输出而产生的任何直接、间接、特殊、偶然或后果性损害（包括但不限于商誉损失、停工、计算机故障或故障或任何和所有其他商业损害或损失），即使NVIDIA已被告知此类损害的可能性。

赔偿

您将赔偿并使NVIDIA免受任何第三方因您使用或分发模型、模型衍生作品或输出而产生的或与之相关的任何索赔。

反馈

NVIDIA感谢您的反馈，您同意NVIDIA可以无限制地使用您的反馈，且无需向您支付补偿。

适用法律

本协议在所有方面均受美国法律和特拉华州法律管辖，不考虑法律冲突原则或《联合国国际货物销售合同公约》。位于加利福尼亚州圣克拉拉县的州和联邦法院对因本协议产生的或与之相关的任何争议或索赔具有专属管辖权，双方不可撤销地同意这些法院的个人管辖权和审判地；但任何一方均可在任何司法管辖区申请禁令救济或同等类型的紧急法律救济。