S

Show O2 1.5B

showlabによって開発
Show - o2は改良されたオリジナルの統一マルチモーダルモデルで、テキスト、画像、ビデオモードの理解と生成をサポートします。
ダウンロード数 145
リリース時間 : 6/5/2025

モデル概要

Show - o2は、テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を行い、デュアルパスの空間(-時間)融合方法を提案し、マルチモーダルタスクに適しています。

モデル特徴

統一学習フレームワーク
テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を実現
デュアルパス融合
デュアルパスの空間(-時間)融合方法を採用し、異なるモードの特徴依存性に適応
特定のヘッド設計
自己回帰モデリングとフローマッチングを組み合わせ、マルチモーダル理解と生成の統一学習を実現

モデル能力

マルチモーダル理解
テキストから画像生成
画像説明生成
ビジュアル質問応答
多言語対応

使用事例

ビジュアル理解
画像説明
入力画像に対して詳細な説明を生成
オブジェクト、シーン、関係を含む自然言語の説明を生成できます
ビジュアル質問応答
画像内容に関する自然言語の質問に回答
画像内のオブジェクトの数、文字内容などの質問に正確に回答できます
コンテンツ生成
テキストから画像生成
テキストの指示に基づいて高品質な画像を生成
複数の解像度(432x432から1024x1024)の画像生成をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase