S

Show O2 1.5B

由showlab開發
Show-o2是一個改進的原生統一多模態模型,支持文本、圖像和視頻模態的理解與生成。
下載量 145
發布時間 : 6/5/2025

模型概述

Show-o2在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習,提出雙路徑的空間(-時間)融合方法,適用於多模態任務。

模型特點

統一學習框架
在文本令牌和3D因果VAE空間上實現多模態理解和生成的統一學習
雙路徑融合
採用雙路徑的空間(-時間)融合方法,適應不同模態的特徵依賴
特定頭部設計
結合自迴歸建模和流匹配,實現多模態理解與生成的統一學習

模型能力

多模態理解
文本到圖像生成
圖像描述生成
視覺問答
多語言支持

使用案例

視覺理解
圖像描述
對輸入圖像生成詳細描述
可生成包含對象、場景和關係的自然語言描述
視覺問答
回答關於圖像內容的自然語言問題
能準確回答關於圖像中對象數量、文字內容等問題
內容生成
文本到圖像生成
根據文本提示生成高質量圖像
支持多種分辨率(432x432至1024x1024)的圖像生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase