Janus-Pro-1B開源模型 - 統一多模態理解與生成，處理多任務超實用！

首頁

Janus Pro 1B

由deepseek-ai開發

Janus-Pro 是一種新穎的自迴歸框架，統一了多模態理解與生成能力。通過解耦視覺編碼路徑，使用單一 Transformer 架構處理多模態任務。

文本生成圖像

Transformers

開源協議:MIT #多模態統一模型 #自迴歸框架 #視覺編碼解耦

下載量 34.02k

發布時間 : 1/26/2025

模型概述

Janus-Pro 是一個統一多模態理解和生成的模型，通過分離視覺編碼設計，解決了理解與生成角色間的衝突，具有高靈活性和高效性。

模型特點

解耦視覺編碼

將視覺編碼解耦為獨立路徑，緩解理解與生成角色間的衝突，增強模型靈活性。

統一架構

使用單一 Transformer 架構處理多模態任務，簡化模型設計。

高性能

超越之前的統一模型，達到或超過專用任務模型的性能。

模型能力

多模態理解

文本到圖像生成

視覺問答

圖像描述生成

使用案例

內容生成

圖像生成

根據文本描述生成高質量圖像。

支持 16 倍降採樣率，生成細節豐富的圖像。

視覺理解

圖像分析

理解圖像內容並回答相關問題。

支持 384 x 384 分辨率圖像輸入。

🚀 Janus-Pro

Janus-Pro 是一種新穎的自迴歸框架，它將多模態理解和生成進行了統一。該框架解決了以往方法的侷限性，通過將視覺編碼解耦為獨立的路徑，同時仍使用單一、統一的 Transformer 架構進行處理。這種解耦不僅緩解了視覺編碼器在理解和生成任務中的角色衝突，還增強了框架的靈活性。Janus-Pro 超越了以往的統一模型，其性能與特定任務模型相當甚至更優。Janus-Pro 的簡潔性、高度靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

🚀 快速開始

請參考 Github 倉庫

✨ 主要特性

統一多模態處理：Janus-Pro 是一個統一的理解和生成多模態大語言模型（MLLM），將多模態理解和生成的視覺編碼解耦。
高性能表現：超越了以往的統一模型，性能與特定任務模型相當甚至更優。
靈活架構：通過解耦視覺編碼，緩解了視覺編碼器在理解和生成任務中的角色衝突，增強了框架的靈活性。

📚 詳細文檔

模型概述

Janus-Pro 是一個統一的理解和生成 MLLM，它將多模態理解和生成的視覺編碼解耦。Janus-Pro 基於 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構建。

對於多模態理解，它使用 SigLIP-L 作為視覺編碼器，支持 384 x 384 圖像輸入。對於圖像生成，Janus-Pro 使用此處的分詞器，下采樣率為 16。

項目展示

模型信息

屬性	詳情
模型類型	統一的多模態理解和生成模型
訓練基礎模型	DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base
多模態理解視覺編碼器	SigLIP-L
圖像生成分詞器	此處的分詞器，下采樣率為 16

📄 許可證

此代碼倉庫遵循 MIT 許可證。Janus-Pro 模型的使用需遵循 DeepSeek 模型許可證。

📚 引用

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}