C

Cosmos 1.0 Diffusion 7B Text2World

由nvidia開發
NVIDIA開發的基於擴散架構的多模態世界基礎模型,能夠根據文本輸入生成高質量物理感知視頻
下載量 5,011
發布時間 : 1/7/2025

模型概述

Cosmos是專為生成物理感知視頻和物理AI開發設計的高性能預訓練世界基礎模型系列,支持文本、圖像或視頻輸入生成動態視頻

模型特點

多模態輸入支持
支持文本、圖像或視頻作為輸入條件生成連貫視頻序列
物理感知生成
生成的視頻具有物理合理性,適合物理AI開發應用
商業友好許可
允許商用和創建衍生模型,NVIDIA不對輸出內容主張所有權
安全護欄機制
內置安全組件防止不當內容生成,規避機制將導致許可終止

模型能力

文本到視頻生成
視頻預測(基於首幀)
多分辨率輸出
可變幀率控制

使用案例

娛樂媒體
短視頻內容生成
根據劇本描述自動生成短視頻內容
5秒1280x704分辨率視頻
物理模擬
物理現象預測
基於初始狀態預測物體運動軌跡
120幀物理合理運動序列
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase