BAGEL-7B-MoT開源多模態基礎模型 - 免費助力理解與生成任務

首頁

BAGEL 7B MoT

由ByteDance-Seed開發

BAGEL是一個開源的、擁有70億活躍參數的多模態基礎模型，訓練於大規模交錯多模態數據，在理解和生成任務上表現優異。

文本生成圖像開源協議:Apache-2.0 #多模態統一模型 #視覺語言理解生成 #智能圖像編輯

下載量 4,736

發布時間 : 5/19/2025

模型概述

BAGEL是一個統一的多模態基礎模型，能夠同時處理視覺理解和生成任務，在標準多模態理解排行榜上超越當前頂級開源視覺語言模型，並在文本到圖像生成質量上與專業生成器相媲美。

模型特點

統一的多模態能力

同時具備多模態理解和生成能力，在視覺理解和圖像生成任務上均表現優異

混合專家架構

採用混合專家Transformer架構，最大化模型從豐富多樣的多模態信息中學習的能力

湧現特性

隨著訓練進展，模型展現出分階段湧現的能力，從基礎理解生成到複雜智能編輯

先進編輯能力

在自由形式的視覺操作、多視角合成和世界導航等任務上展現出超越傳統圖像編輯模型的能力

模型能力

多模態理解

文本到圖像生成

圖像編輯

自由形式視覺操作

多視角合成

世界導航

使用案例

內容創作

文本到圖像生成

根據文本描述生成高質量圖像

在GenEval基準測試中總體得分0.88，優於SD3-Medium等專業生成器

圖像編輯

智能圖像編輯

根據指令對圖像進行復雜編輯

在GEdit-Bench-EN和IntelligentBench等基準測試中表現優異

多模態理解

視覺問答

回答關於圖像內容的複雜問題

在MMBench、MMMU等標準多模態理解排行榜上超越當前頂級開源視覺語言模型

🚀 BAGEL：多模態理解與生成的統一模型

BAGEL 是一個擁有 70 億活躍參數（總計 140 億）的開源多模態基礎模型，它在大規模交錯多模態數據上進行訓練。該模型在標準多模態理解排行榜上超越了當前頂級的開源視覺語言模型，如 Qwen2.5-VL 和 InternVL - 2.5，並且在文本到圖像生成方面的質量可與強大的專業生成器（如 SD3）相媲美。此外，在經典圖像編輯場景中，BAGEL 也展現出優於領先開源模型的定性結果。更重要的是，它還具備自由形式視覺操作、多視圖合成和世界導航等能力，這些能力構成了超越以往圖像編輯模型範圍的“世界建模”任務。

✨ 主要特性

架構先進：採用混合Transformer專家（Mixture - of - Transformer - Experts, MoT）架構，最大化模型從豐富多樣的多模態信息中學習的能力。
特徵提取高效：利用兩個獨立的編碼器分別捕獲圖像的像素級和語義級特徵。
訓練方式多樣：通過在跨越語言、圖像、視頻和網絡數據的數萬億交錯多模態令牌上進行預訓練、持續訓練和監督微調，擴展 MoT 的能力。
能力強大：在標準理解和生成基準測試中超越開源模型，具備自由形式圖像編輯、未來幀預測、3D 操作、世界導航和順序推理等先進的上下文多模態能力。

🔧 技術細節

方法

BAGEL 採用混合Transformer專家（MoT）架構，以最大化模型從豐富多樣的多模態信息中學習的能力。遵循相同的容量最大化原則，它使用兩個獨立的編碼器來捕獲圖像的像素級和語義級特徵。整體框架遵循下一組令牌預測範式，即模型被訓練來預測下一組語言或視覺令牌作為壓縮目標。

BAGEL 通過在跨越語言、圖像、視頻和網絡數據的數萬億交錯多模態令牌上進行預訓練、持續訓練和監督微調，擴展 MoT 的能力。它在標準理解和生成基準測試中超越了開源模型，並展示了先進的上下文多模態能力，如自由形式圖像編輯、未來幀預測、3D 操作、世界導航和順序推理。

新興特性

隨著我們使用更多的多模態令牌對 BAGEL 進行預訓練擴展，我們觀察到在理解、生成和編輯任務中性能持續提升。不同的能力在不同的訓練階段出現：多模態理解和生成較早出現，接著是基本編輯，而複雜的智能編輯則在後期出現。這種分階段的進展表明了一種新興模式，即先進的多模態推理建立在完善的基礎技能之上。消融研究進一步表明，結合變分自編碼器（VAE）和視覺Transformer（ViT）特徵顯著提高了智能編輯能力，強調了視覺語義上下文在實現複雜多模態推理中的重要性，並進一步支持了其在先進能力出現中的作用。

基準測試

1. 視覺理解

模型	MME ‚Üë	MMBench ‚Üë	MMMU ‚Üë	MM - Vet ‚Üë	MathVista ‚Üë
Janus - Pro - 7B	-	79.2	41.0	50.0	-
Qwen2.5 - VL - 7B	2347	83.5	58.6	67.1	68.2
BAGEL	2388	85.0	55.3	67.2	73.1

2. 文本到圖像生成 ¬∑ GenEval

模型	總體 ‚Üë
FLUX - 1 - dev	0.82
SD3 - Medium	0.74
Janus - Pro - 7B	0.80
BAGEL	0.88

3. 圖像編輯

模型	GEdit - Bench - EN (SC) ‚Üë	GEdit - Bench - EN (PQ) ‚Üë	GEdit - Bench - EN (O) ‚Üë	IntelligentBench ‚Üë
Step1X - Edit	7.09	6.76	6.70	14.9
Gemini - 2 - exp.	6.73	6.61	6.32	57.6
BAGEL	7.36	6.83	6.52	44.0
BAGEL+CoT	-	-	-	55.3

📄 許可證

BAGEL 採用 Apache 2.0 許可證。它是在 [Qwen2.5 - 7B - Instruct](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) 和 [siglip - so400m - 14 - 384 - flash - attn2](https://huggingface.co/HuggingFaceM4/siglip - so400m - 14 - 384 - flash - attn2) 模型的基礎上進行微調的，並使用了 [FLUX.1 - schnell VAE 模型](https://huggingface.co/black - forest - labs/FLUX.1 - schnell)，所有這些都遵循 Apache 2.0 許可證。

📚 引用

@article{deng2025bagel,
  title   = {Emerging Properties in Unified Multimodal Pretraining},
  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
  journal = {arXiv preprint arXiv:2505.14683},
  year    = {2025}
}

本倉庫託管了 BAGEL 的模型權重。有關安裝、使用說明和更多文檔，請訪問我們的 [GitHub 倉庫](https://github.com/bytedance - seed/BAGEL)。