Janus - Pro - 7Bオープンソースモデル - 統一的なマルチモーダル理解と生成、多タスクを効率的に処理

ホーム

Janus Pro 7B

Athagiによって開発

Janus-Proは、マルチモーダル理解と生成を統一する新しい自己回帰フレームワークです。視覚エンコーディングパスを分離し、単一の統一Transformerアーキテクチャを使用してマルチモーダルタスクを処理します。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル統一モデル #視覚エンコーディングの分離 #自己回帰生成

ダウンロード数 15

リリース時間 : 1/28/2025

モデル概要

Janus-Proは、理解と生成を統一したマルチモーダル大規模言語モデル（MLLM）で、マルチモーダル理解と生成の視覚エンコーディングを分離し、フレームワークの柔軟性を高めています。

モデル特徴

視覚エンコーディングの分離

視覚エンコーディングを独立したパスに分離し、理解と生成の役割間での視覚エンコーダの衝突を緩和します。

統一アーキテクチャ

単一の統一Transformerアーキテクチャを使用してマルチモーダルタスクを処理し、モデル構造を簡素化します。

高い柔軟性

分離設計によりフレームワークの柔軟性が向上し、さまざまなマルチモーダルタスクに対応できます。

モデル能力

マルチモーダル理解

テキストから画像生成

画像分析

使用事例

マルチモーダルインタラクション

画像キャプション生成

入力画像に基づいて詳細なテキスト説明を生成します。

テキストから画像生成

入力テキストに基づいて対応する画像を生成します。

🚀 Janus-Pro

Janus-Proは、マルチモーダル理解と生成を統合した新しい自己回帰フレームワークです。このフレームワークは、視覚符号化を別々の経路に分離することで、以前のアプローチの制限を克服し、単一の統一トランスフォーマーアーキテクチャを使用して処理を行います。この分離により、視覚エンコーダの理解と生成の役割の間の衝突が軽減され、フレームワークの柔軟性が向上します。

🚀 クイックスタート

詳細については、Githubリポジトリを参照してください。

✨ 主な機能

Janus-Proは、マルチモーダル理解と生成のための視覚符号化を分離した、統合型の理解と生成を行うMLLMです。このモデルは、DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されています。

マルチモーダル理解：SigLIP-Lを視覚エンコーダとして使用し、384 x 384の画像入力をサポートします。
画像生成：ここのトークナイザーを使用し、ダウンサンプル率は16です。

📚 ドキュメント

概要

Githubリポジトリ

モデル概要

プロパティ	詳細
モデルタイプ	統合型の理解と生成を行うMLLM
ベースモデル	DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base
視覚エンコーダ	SigLIP-L
画像入力サイズ	384 x 384
トークナイザー	ここのトークナイザー
ダウンサンプル率	16

📄 ライセンス

このコードリポジトリは、MITライセンスの下でライセンスされています。Janus-Proモデルの使用は、DeepSeekモデルライセンスに従います。

📚 引用

@misc{chen2025januspro,
      title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling}, 
      author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan},
      year={2025},
}