Janus-Pro-7B開源模型 - 統一多模態理解與生成，高效處理多任務

首頁

Janus Pro 7B

由Athagi開發

Janus-Pro 是一種新穎的自迴歸框架，統一了多模態理解和生成。它通過解耦視覺編碼路徑，使用單一的統一 Transformer 架構處理多模態任務。

文本生成圖像

Transformers

開源協議:MIT #多模態統一模型 #視覺編碼解耦 #自迴歸生成

下載量 15

發布時間 : 1/28/2025

模型概述

Janus-Pro 是一個統一理解和生成的多模態大語言模型（MLLM），它將多模態理解和生成的視覺編碼解耦，增強了框架的靈活性。

模型特點

解耦視覺編碼

將視覺編碼解耦為獨立路徑，緩解了視覺編碼器在理解和生成角色之間的衝突。

統一架構

使用單一的統一 Transformer 架構處理多模態任務，簡化了模型結構。

高靈活性

解耦設計增強了框架的靈活性，使其能夠適應多種多模態任務。

模型能力

多模態理解

文本到圖像生成

圖像分析

使用案例

多模態交互

圖像描述生成

根據輸入的圖像生成詳細的文本描述。

文本到圖像生成

根據輸入的文本生成相應的圖像。

🚀 Janus - Pro：多模態統一理解與生成框架

Janus - Pro是一種新穎的自迴歸框架，它將多模態理解和生成進行了統一。該框架通過將視覺編碼解耦為獨立的路徑，同時仍使用單一、統一的Transformer架構進行處理，解決了以往方法的侷限性。這種解耦不僅緩解了視覺編碼器在理解和生成任務中的衝突，還增強了框架的靈活性。Janus - Pro超越了以往的統一模型，其性能與特定任務模型相當甚至更優。其簡單性、高靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

GitHub倉庫

✨ 主要特性

統一多模態理解和生成，採用新穎的自迴歸框架。
解耦視覺編碼，緩解理解和生成任務的衝突，增強框架靈活性。
性能超越以往統一模型，與特定任務模型相當甚至更優。

📚 詳細文檔

模型概述

Janus - Pro是一個統一的理解和生成型多模態大語言模型（MLLM），它對多模態理解和生成的視覺編碼進行了解耦。Janus - Pro基於DeepSeek - LLM - 1.5b - base/DeepSeek - LLM - 7b - base構建。

屬性	詳情
模型類型	統一理解和生成的多模態大語言模型
視覺編碼器（理解）	[SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384)，支持384 x 384圖像輸入
圖像生成分詞器	此處的分詞器，下采樣率為16

🚀 快速開始

請參考GitHub倉庫

📄 許可證

本代碼倉庫遵循[MIT許可證](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - CODE)。Janus - Pro模型的使用需遵循[DeepSeek模型許可證](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - MODEL)。

📚 引用

如果您使用了本項目，請引用以下文獻：

@misc{chen2025januspro,
      title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling}, 
      author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan},
      year={2025},
}