Janus - Pro - 7Bオープンソースモデル - 统一多モーダル理解生成、ビジュアルコーディングの衝突を解決

Janus Pro 7B

deepseek-aiによって開発

Janus-Proは革新的な自己回帰型フレームワークで、マルチモーダル理解と生成機能を統合しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャで処理することで、視覚エンコーダが理解と生成の役割間で生じる衝突を解決しました。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル統一モデル #自己回帰型画像生成 #視覚エンコーディングの分離

ダウンロード数 139.64k

リリース時間 : 1/26/2025

モデル概要

Janus-Proは理解と生成を統合したマルチモーダル大規模言語モデル（MLLM）で、視覚エンコーディングを分離することでマルチモーダル理解と生成機能を実現しています。その性能は専用タスクモデルに匹敵またはそれを上回り、高い柔軟性と効率性を備えています。

モデル特徴

視覚エンコーディングの分離

視覚エンコーディングを独立したパスに分離することで、視覚エンコーダが理解と生成の役割間で生じる衝突を緩和し、フレームワークの柔軟性を向上させました。

統一アーキテクチャ

単一の統一されたTransformerアーキテクチャでマルチモーダル理解と生成機能を処理し、モデル構造を簡素化しました。

高性能

性能は専用タスクモデルに匹敵またはそれを上回り、次世代の統一マルチモーダルモデルの有力候補となっています。

モデル能力

マルチモーダル理解

テキストからの画像生成

画像分析

使用事例

マルチモーダルアプリケーション

画像生成

テキスト記述に基づいて高品質な画像を生成します。

生成された画像は高品質で、テキスト記述に合致しています。

マルチモーダル理解

画像とテキストの組み合わせ入力を理解し、複雑なマルチモーダル推論を行います。

マルチモーダルタスクで優れた性能を発揮します。

🚀 Janus - Pro

Janus - Proは、マルチモーダル理解と生成を統合した新しい自己回帰フレームワークです。このフレームワークは、視覚エンコーディングを別々のパスウェイに分離しながらも、単一の統一トランスフォーマーアーキテクチャを利用して処理を行うことで、従来のアプローチの制限を克服します。この分離により、視覚エンコーダーの理解と生成における役割の衝突が軽減され、フレームワークの柔軟性が向上します。Janus - Proは、従来の統一モデルを上回り、特定タスク用のモデルと同等またはそれ以上の性能を発揮します。そのシンプルさ、高い柔軟性、および有効性から、次世代の統一マルチモーダルモデルとして有力な候補となっています。

🚀 クイックスタート

詳細については、Githubリポジトリを参照してください。

✨ 主な機能

Janus - Proは、マルチモーダル理解と生成のための視覚エンコーディングを分離した、統一的な理解と生成が可能なMLLMです。このモデルはDeepSeek - LLM - 1.5b - base/DeepSeek - LLM - 7b - baseに基づいて構築されています。

マルチモーダル理解：視覚エンコーダーとして[SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384)を使用し、384 x 384の画像入力をサポートします。
画像生成：ダウンサンプル率16で、ここのトークナイザーを使用します。

📚 ドキュメント

モデル概要

Property	Details
Model Type	マルチモーダル理解と生成を統合した自己回帰フレームワーク
Training Data	未記載

📄 ライセンス

このコードリポジトリはMITライセンスの下でライセンスされています。Janus - Proモデルの使用は、DeepSeekモデルライセンスに従います。

📚 引用

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}