Janus-Pro-7B開源模型 - 統一多模態理解生成，解決視覺編碼衝突

首頁

Janus Pro 7B

由deepseek-ai開發

Janus-Pro 是一種創新的自迴歸框架，統一了多模態理解與生成功能。通過解耦視覺編碼路徑，採用單一Transformer架構處理，解決了視覺編碼器在理解與生成角色間的衝突。

文本生成圖像

Transformers

開源協議:MIT #多模態統一模型 #自迴歸圖像生成 #解耦視覺編碼

下載量 139.64k

發布時間 : 1/26/2025

模型概述

Janus-Pro 是一個統一理解與生成的多模態大語言模型（MLLM），通過解耦視覺編碼實現多模態理解與生成功能。其性能達到或超越了專用任務模型，具有高度靈活性和高效性。

模型特點

解耦視覺編碼

將視覺編碼解耦為獨立路徑，緩解了視覺編碼器在理解與生成角色間的衝突，增強了框架的靈活性。

統一架構

採用單一統一的Transformer架構處理多模態理解與生成功能，簡化了模型結構。

高性能

性能達到或超越了專用任務模型，成為下一代統一多模態模型的強力候選者。

模型能力

多模態理解

文本生成圖像

圖像分析

使用案例

多模態應用

圖像生成

根據文本描述生成高質量的圖像。

生成圖像質量高，符合文本描述。

多模態理解

理解圖像和文本的聯合輸入，進行復雜的多模態推理。

在多模態任務中表現優異。

🚀 Janus - Pro：統一多模態理解與生成框架

Janus - Pro是一種新穎的自迴歸框架，它將多模態理解和生成進行了統一。該框架通過將視覺編碼解耦為獨立的路徑，同時利用單一、統一的Transformer架構進行處理，解決了以往方法的侷限性。這種解耦不僅緩解了視覺編碼器在理解和生成任務中的衝突，還增強了框架的靈活性。Janus - Pro超越了以往的統一模型，其性能與特定任務模型相當甚至更優。它的簡單性、高靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

🚀 快速開始

請參考 Github 倉庫

✨ 主要特性

統一架構：Janus - Pro是一個統一的多模態大語言模型（MLLM），可同時處理多模態理解和生成任務。
視覺編碼解耦：將用於多模態理解和生成的視覺編碼進行解耦，提升了框架的靈活性。
高性能表現：超越了以往的統一模型，性能與特定任務模型相當甚至更優。

📚 詳細文檔

模型概述

Janus - Pro是一個統一的理解和生成MLLM，它對用於多模態理解和生成的視覺編碼進行了解耦。該模型基於DeepSeek - LLM - 1.5b - base/DeepSeek - LLM - 7b - base構建。

在多模態理解方面，它使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作為視覺編碼器，支持384 x 384的圖像輸入。在圖像生成方面，Janus - Pro使用此處的分詞器，下采樣率為16。

模型展示

📄 許可證

本代碼倉庫遵循 [MIT 許可證](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - CODE)。Janus - Pro模型的使用需遵循 [DeepSeek 模型許可證](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - MODEL)。

📚 引用信息

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}