S

Show O2 1.5B

由 showlab 开发
Show-o2是一个改进的原生统一多模态模型,支持文本、图像和视频模态的理解与生成。
下载量 145
发布时间 : 6/5/2025

模型简介

Show-o2在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习,提出双路径的空间(-时间)融合方法,适用于多模态任务。

模型特点

统一学习框架
在文本令牌和3D因果VAE空间上实现多模态理解和生成的统一学习
双路径融合
采用双路径的空间(-时间)融合方法,适应不同模态的特征依赖
特定头部设计
结合自回归建模和流匹配,实现多模态理解与生成的统一学习

模型能力

多模态理解
文本到图像生成
图像描述生成
视觉问答
多语言支持

使用案例

视觉理解
图像描述
对输入图像生成详细描述
可生成包含对象、场景和关系的自然语言描述
视觉问答
回答关于图像内容的自然语言问题
能准确回答关于图像中对象数量、文字内容等问题
内容生成
文本到图像生成
根据文本提示生成高质量图像
支持多种分辨率(432x432至1024x1024)的图像生成
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase