Janus-1.3Bオープンソースモデル - 统一多模态理解と生成を実現し、伝統的な制約を柔軟に解消

ホーム

Janus 1.3B

deepseek-aiによって開発

Janusは、マルチモーダル理解と生成を統一する新しい自己回帰型フレームワークです。分離された視覚エンコーディングにより、従来の手法の限界を克服し、フレームワークの柔軟性を向上させています。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #自己回帰型マルチモーダル #分離された視覚エンコーディング #統一理解生成

ダウンロード数 12.44k

リリース時間 : 10/18/2024

モデル概要

Janusは、マルチモーダル理解と生成を統一するマルチモーダル大規模言語モデル（MLLM）で、マルチモーダル理解と生成の視覚エンコーディングを分離しています。DeepSeek-LLM-1.3b-baseをベースに構築され、マルチモーダル理解と画像生成をサポートします。

モデル特徴

分離された視覚エンコーディング

視覚エンコーディングを独立したパスに分離することで、理解と生成の役割間での視覚エンコーダーの衝突を緩和します。

統一アーキテクチャ

単一の統一Transformerアーキテクチャを使用して、マルチモーダル理解と生成タスクを処理します。

柔軟性

分離設計によりフレームワークの柔軟性が向上し、さまざまなタスクに適応できます。

モデル能力

マルチモーダル理解

テキストから画像生成

画像理解

使用事例

マルチモーダルインタラクション

画像生成

テキスト記述に基づいて画像を生成します。

高品質な画像生成をサポートします。

画像理解

画像内容を理解し、関連する説明を生成します。

特定タスクモデルの性能に匹敵またはそれを超えます。

🚀 ジャヌス (Janus)

ジャヌス (Janus) は、多モーダル理解と生成を統合した革新的な自己回帰フレームワークです。視覚符号化を分離することで、従来のアプローチの制限を克服し、高い柔軟性と効果を実現しています。

🚀 クイックスタート

詳細なクイックスタートガイドについては、Githubリポジトリ を参照してください。

✨ 主な機能

多モーダル統合：多モーダル理解と生成を単一のフレームワークで実現。
視覚符号化の分離：視覚エンコーダの理解と生成の役割の衝突を軽減し、柔軟性を向上。
高性能：従来の統合モデルを上回り、タスク固有のモデルと同等以上の性能を発揮。

📚 ドキュメント

0. 更新情報

2024.10.20：正しい tokenizer_config.json をアップロードしました。以前のファイルには pad_token が欠けており、視覚生成結果が不十分になっていました。

1. 概要

ジャヌス (Janus) は、多モーダル理解と生成を統合した新しい自己回帰フレームワークです。視覚符号化を別々のパスに分離することで、従来のアプローチの制限を克服し、単一の統一トランスフォーマーアーキテクチャを使用して処理を行います。この分離により、視覚エンコーダの理解と生成の役割の衝突が軽減され、フレームワークの柔軟性が向上します。

ジャヌスは、従来の統合モデルを上回り、タスク固有のモデルと同等以上の性能を発揮します。そのシンプルさ、高い柔軟性、および効果により、次世代の統合多モーダルモデルの有力な候補となっています。

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Githubリポジトリ

2. モデルの概要

ジャヌスは、多モーダル理解と生成のために視覚符号化を分離した統合理解と生成のMLLMです。ジャヌスは、約500Bのテキストトークンのコーパスで学習されたDeepSeek-LLM-1.3b-baseをベースに構築されています。多モーダル理解には、SigLIP-L をビジョンエンコーダとして使用し、384 x 384の画像入力をサポートします。画像生成には、ここのトークナイザーをダウンサンプル率16で使用します。

📄 ライセンス

このコードリポジトリは、MITライセンスの下でライセンスされています。ジャヌスモデルの使用は、DeepSeekモデルライセンスに従います。

📚 引用

@misc{wu2024janus,
      title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation}, 
      author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
      year={2024},
      eprint={2410.13848},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.13848}, 
}