J

Janus 1.3B

deepseek-aiによって開発
Janusは、マルチモーダル理解と生成を統一する新しい自己回帰型フレームワークです。分離された視覚エンコーディングにより、従来の手法の限界を克服し、フレームワークの柔軟性を向上させています。
ダウンロード数 12.44k
リリース時間 : 10/18/2024

モデル概要

Janusは、マルチモーダル理解と生成を統一するマルチモーダル大規模言語モデル(MLLM)で、マルチモーダル理解と生成の視覚エンコーディングを分離しています。DeepSeek-LLM-1.3b-baseをベースに構築され、マルチモーダル理解と画像生成をサポートします。

モデル特徴

分離された視覚エンコーディング
視覚エンコーディングを独立したパスに分離することで、理解と生成の役割間での視覚エンコーダーの衝突を緩和します。
統一アーキテクチャ
単一の統一Transformerアーキテクチャを使用して、マルチモーダル理解と生成タスクを処理します。
柔軟性
分離設計によりフレームワークの柔軟性が向上し、さまざまなタスクに適応できます。

モデル能力

マルチモーダル理解
テキストから画像生成
画像理解

使用事例

マルチモーダルインタラクション
画像生成
テキスト記述に基づいて画像を生成します。
高品質な画像生成をサポートします。
画像理解
画像内容を理解し、関連する説明を生成します。
特定タスクモデルの性能に匹敵またはそれを超えます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase