Janus - Pro - 1Bオープンソースモデル - 統一的なマルチモーダル理解と生成、多タスクを処理するのに超実用的！

ホーム

Janus Pro 1B

deepseek-aiによって開発

Janus-Proは、新しい自己回帰フレームワークで、マルチモーダルの理解と生成能力を統一しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャでマルチモーダルタスクを処理します。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル統一モデル #自己回帰フレームワーク #視覚エンコーディングの分離

ダウンロード数 34.02k

リリース時間 : 1/26/2025

モデル概要

Janus-Proは、視覚エンコーディング設計を分離することで、理解と生成の役割間の衝突を解決し、高い柔軟性と効率性を備えたマルチモーダル理解と生成の統一モデルです。

モデル特徴

分離された視覚エンコーディング

視覚エンコーディングを独立したパスに分離し、理解と生成の役割間の衝突を緩和し、モデルの柔軟性を向上させます。

統一アーキテクチャ

単一のTransformerアーキテクチャでマルチモーダルタスクを処理し、モデル設計を簡素化します。

高性能

従来の統一モデルを凌駕し、専用タスクモデルの性能に匹敵またはそれを上回ります。

モデル能力

マルチモーダル理解

テキストから画像生成

視覚的質問応答

画像キャプション生成

使用事例

コンテンツ生成

画像生成

テキスト記述に基づいて高品質な画像を生成します。

16倍のダウンサンプリング率をサポートし、詳細に富んだ画像を生成します。

視覚的理解

画像分析

画像の内容を理解し、関連する質問に答えます。

384 x 384解像度の画像入力をサポートします。

🚀 Janus-Pro

Janus-Proは、マルチモーダル理解と生成を統合した新しい自己回帰フレームワークです。このフレームワークは、以前のアプローチの制限を克服し、柔軟性と効果的な性能を提供します。

🚀 クイックスタート

詳細については、Githubリポジトリを参照してください。

✨ 主な機能

Janus-Proは、マルチモーダル理解と生成を統合したMLLMで、ビジュアルエンコーディングを分離しています。
このモデルは、DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されています。
マルチモーダル理解には、SigLIP-Lをビジョンエンコーダーとして使用し、384 x 384の画像入力をサポートしています。
画像生成には、こちらのトークナイザーをダウンサンプル率16で使用しています。

📚 ドキュメント

1. 概要

Janus-Proは、マルチモーダル理解と生成を統合した新しい自己回帰フレームワークです。このフレームワークは、ビジュアルエンコーディングを別々のパスウェイに分離することで、以前のアプローチの制限を克服します。同時に、単一の統一トランスフォーマーアーキテクチャを使用して処理を行います。この分離により、ビジュアルエンコーダーの理解と生成の役割の間の衝突が軽減され、フレームワークの柔軟性が向上します。

Janus-Proは、以前の統一モデルを上回り、タスク固有のモデルの性能と同等またはそれ以上の性能を発揮します。Janus-Proのシンプルさ、高い柔軟性、および効果的な性能は、次世代の統一マルチモーダルモデルとしての有力な候補となっています。

Githubリポジトリ

2. モデルの概要

Janus-Proは、マルチモーダル理解と生成を統合したMLLMで、ビジュアルエンコーディングを分離しています。このモデルは、DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されています。

マルチモーダル理解には、SigLIP-Lをビジョンエンコーダーとして使用し、384 x 384の画像入力をサポートしています。画像生成には、こちらのトークナイザーをダウンサンプル率16で使用しています。

📄 ライセンス

このコードリポジトリは、MITライセンスの下でライセンスされています。Janus-Proモデルの使用は、DeepSeekモデルライセンスに従います。

📚 引用

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}