Janus-Pro-7B开源模型 - 统一多模态理解生成，解决视觉编码冲突

首页

Janus Pro 7B

由 deepseek-ai 开发

Janus-Pro 是一种创新的自回归框架，统一了多模态理解与生成功能。通过解耦视觉编码路径，采用单一Transformer架构处理，解决了视觉编码器在理解与生成角色间的冲突。

文本生成图像

Transformers

开源协议:MIT #多模态统一模型 #自回归图像生成 #解耦视觉编码

下载量 139.64k

发布时间 : 1/26/2025

模型简介

Janus-Pro 是一个统一理解与生成的多模态大语言模型（MLLM），通过解耦视觉编码实现多模态理解与生成功能。其性能达到或超越了专用任务模型，具有高度灵活性和高效性。

模型特点

解耦视觉编码

将视觉编码解耦为独立路径，缓解了视觉编码器在理解与生成角色间的冲突，增强了框架的灵活性。

统一架构

采用单一统一的Transformer架构处理多模态理解与生成功能，简化了模型结构。

高性能

性能达到或超越了专用任务模型，成为下一代统一多模态模型的强力候选者。

模型能力

多模态理解

文本生成图像

图像分析

使用案例

多模态应用

图像生成

根据文本描述生成高质量的图像。

生成图像质量高，符合文本描述。

多模态理解

理解图像和文本的联合输入，进行复杂的多模态推理。

在多模态任务中表现优异。

🚀 Janus - Pro：统一多模态理解与生成框架

Janus - Pro是一种新颖的自回归框架，它将多模态理解和生成进行了统一。该框架通过将视觉编码解耦为独立的路径，同时利用单一、统一的Transformer架构进行处理，解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成任务中的冲突，还增强了框架的灵活性。Janus - Pro超越了以往的统一模型，其性能与特定任务模型相当甚至更优。它的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

🚀 快速开始

请参考 Github 仓库

✨ 主要特性

统一架构：Janus - Pro是一个统一的多模态大语言模型（MLLM），可同时处理多模态理解和生成任务。
视觉编码解耦：将用于多模态理解和生成的视觉编码进行解耦，提升了框架的灵活性。
高性能表现：超越了以往的统一模型，性能与特定任务模型相当甚至更优。

📚 详细文档

模型概述

Janus - Pro是一个统一的理解和生成MLLM，它对用于多模态理解和生成的视觉编码进行了解耦。该模型基于DeepSeek - LLM - 1.5b - base/DeepSeek - LLM - 7b - base构建。

在多模态理解方面，它使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作为视觉编码器，支持384 x 384的图像输入。在图像生成方面，Janus - Pro使用此处的分词器，下采样率为16。

模型展示

📄 许可证

本代码仓库遵循 [MIT 许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - CODE)。Janus - Pro模型的使用需遵循 [DeepSeek 模型许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - MODEL)。

📚 引用信息

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}