S

Show O2 1.5B

Developed by showlab
Show - o2は改良されたオリジナルの統一マルチモーダルモデルで、テキスト、画像、ビデオモードの理解と生成をサポートします。
Downloads 145
Release Time : 6/5/2025

Model Overview

Show - o2は、テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を行い、デュアルパスの空間(-時間)融合方法を提案し、マルチモーダルタスクに適しています。

Model Features

統一学習フレームワーク
テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を実現
デュアルパス融合
デュアルパスの空間(-時間)融合方法を採用し、異なるモードの特徴依存性に適応
特定のヘッド設計
自己回帰モデリングとフローマッチングを組み合わせ、マルチモーダル理解と生成の統一学習を実現

Model Capabilities

マルチモーダル理解
テキストから画像生成
画像説明生成
ビジュアル質問応答
多言語対応

Use Cases

ビジュアル理解
画像説明
入力画像に対して詳細な説明を生成
オブジェクト、シーン、関係を含む自然言語の説明を生成できます
ビジュアル質問応答
画像内容に関する自然言語の質問に回答
画像内のオブジェクトの数、文字内容などの質問に正確に回答できます
コンテンツ生成
テキストから画像生成
テキストの指示に基づいて高品質な画像を生成
複数の解像度(432x432から1024x1024)の画像生成をサポート
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase