Janus-1.3B開源模型 - 統一多模態理解與生成，靈活解決傳統侷限

Home

Janus 1.3B

Developed by deepseek-ai

Janus 是一種新穎的自迴歸框架，統一了多模態理解與生成。它通過解耦視覺編碼，解決了先前方法的侷限性，增強了框架的靈活性。

文本生成圖像

Transformers

Open Source License:MIT #自迴歸多模態 #解耦視覺編碼 #統一理解生成

Downloads 12.44k

Release Time : 10/18/2024

Model Overview

Janus 是一個統一理解與生成的多模態大語言模型（MLLM），它解耦了多模態理解與生成的視覺編碼。基於 DeepSeek-LLM-1.3b-base 構建，支持多模態理解和圖像生成。

Model Features

解耦視覺編碼

將視覺編碼解耦為獨立路徑，緩解了視覺編碼器在理解與生成角色之間的衝突。

統一架構

使用單一的統一 Transformer 架構處理多模態理解與生成任務。

靈活性

解耦設計增強了框架的靈活性，使其能夠適應多種任務。

Model Capabilities

多模態理解

文本生成圖像

圖像理解

Use Cases

多模態交互

圖像生成

根據文本描述生成圖像。

支持高質量圖像生成。

圖像理解

理解圖像內容並生成相關描述。

達到或超過特定任務模型的性能。

🚀 Janus - 多模態統一理解與生成框架

Janus是一種新穎的自迴歸框架，它將多模態理解和生成統一起來。該框架通過將視覺編碼解耦為獨立的路徑，同時仍使用單一、統一的Transformer架構進行處理，解決了以往方法的侷限性。這種解耦不僅緩解了視覺編碼器在理解和生成任務中的衝突，還增強了框架的靈活性。Janus超越了以往的統一模型，其性能可與甚至超過特定任務模型，以其簡單性、高靈活性和有效性，成為下一代統一多模態模型的有力候選者。

🚀 快速開始

請參考 Github倉庫

✨ 主要特性

多模態統一：Janus是一個統一的理解和生成多模態大語言模型（MLLM），將視覺編碼解耦以用於多模態理解和生成。
強大的基礎模型：基於DeepSeek - LLM - 1.3b - base構建，該模型在約500B文本標記的語料庫上進行訓練。
靈活的視覺編碼：在多模態理解方面，使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作為視覺編碼器，支持384 x 384的圖像輸入；在圖像生成方面，使用此處的分詞器，下采樣率為16。

📚 詳細文檔

0. 更新

2024.10.20：我們已上傳正確的 tokenizer_config.json 文件。之前的文件缺少 pad_token，這導致視覺生成效果不佳。

1. 簡介

Janus是一種創新的自迴歸框架，旨在統一多模態理解和生成任務。通過將視覺編碼解耦為獨立的路徑，同時利用單一的統一Transformer架構進行處理，它克服了以往方法的侷限性。這種解耦不僅減輕了視覺編碼器在理解和生成角色之間的衝突，還提高了框架的靈活性。Janus超越了以往的統一模型，其性能與特定任務模型相當甚至更優。其簡單性、高靈活性和有效性使其成為下一代統一多模態模型的有力競爭者。

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Github倉庫

2. 模型概述

Janus是一個統一的理解和生成多模態大語言模型，它將視覺編碼解耦以用於多模態理解和生成。Janus基於DeepSeek - LLM - 1.3b - base構建，該模型在約500B文本標記的語料庫上進行訓練。

在多模態理解方面，它使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作為視覺編碼器，支持384 x 384的圖像輸入。在圖像生成方面，Janus使用此處的分詞器，下采樣率為16。

📄 許可證

本代碼倉庫遵循 MIT許可證。Janus模型的使用需遵循 DeepSeek模型許可證。

📚 引用

@misc{wu2024janus,
      title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation}, 
      author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
      year={2024},
      eprint={2410.13848},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.13848}, 
}