🚀 BAGEL:多模態理解與生成的統一模型
BAGEL 是一個擁有 70 億活躍參數(總計 140 億)的開源多模態基礎模型,它在大規模交錯多模態數據上進行訓練。該模型在標準多模態理解排行榜上超越了當前頂級的開源視覺語言模型,如 Qwen2.5-VL 和 InternVL - 2.5,並且在文本到圖像生成方面的質量可與強大的專業生成器(如 SD3)相媲美。此外,在經典圖像編輯場景中,BAGEL 也展現出優於領先開源模型的定性結果。更重要的是,它還具備自由形式視覺操作、多視圖合成和世界導航等能力,這些能力構成了超越以往圖像編輯模型範圍的“世界建模”任務。

✨ 主要特性
- 架構先進:採用混合Transformer專家(Mixture - of - Transformer - Experts, MoT)架構,最大化模型從豐富多樣的多模態信息中學習的能力。
- 特徵提取高效:利用兩個獨立的編碼器分別捕獲圖像的像素級和語義級特徵。
- 訓練方式多樣:通過在跨越語言、圖像、視頻和網絡數據的數萬億交錯多模態令牌上進行預訓練、持續訓練和監督微調,擴展 MoT 的能力。
- 能力強大:在標準理解和生成基準測試中超越開源模型,具備自由形式圖像編輯、未來幀預測、3D 操作、世界導航和順序推理等先進的上下文多模態能力。
🔧 技術細節
方法
BAGEL 採用混合Transformer專家(MoT)架構,以最大化模型從豐富多樣的多模態信息中學習的能力。遵循相同的容量最大化原則,它使用兩個獨立的編碼器來捕獲圖像的像素級和語義級特徵。整體框架遵循下一組令牌預測範式,即模型被訓練來預測下一組語言或視覺令牌作為壓縮目標。
BAGEL 通過在跨越語言、圖像、視頻和網絡數據的數萬億交錯多模態令牌上進行預訓練、持續訓練和監督微調,擴展 MoT 的能力。它在標準理解和生成基準測試中超越了開源模型,並展示了先進的上下文多模態能力,如自由形式圖像編輯、未來幀預測、3D 操作、世界導航和順序推理。

新興特性
隨著我們使用更多的多模態令牌對 BAGEL 進行預訓練擴展,我們觀察到在理解、生成和編輯任務中性能持續提升。不同的能力在不同的訓練階段出現:多模態理解和生成較早出現,接著是基本編輯,而複雜的智能編輯則在後期出現。這種分階段的進展表明了一種新興模式,即先進的多模態推理建立在完善的基礎技能之上。消融研究進一步表明,結合變分自編碼器(VAE)和視覺Transformer(ViT)特徵顯著提高了智能編輯能力,強調了視覺語義上下文在實現複雜多模態推理中的重要性,並進一步支持了其在先進能力出現中的作用。

基準測試
1. 視覺理解
模型 |
MME ‚Üë |
MMBench ‚Üë |
MMMU ‚Üë |
MM - Vet ‚Üë |
MathVista ‚Üë |
Janus - Pro - 7B |
- |
79.2 |
41.0 |
50.0 |
- |
Qwen2.5 - VL - 7B |
2347 |
83.5 |
58.6 |
67.1 |
68.2 |
BAGEL |
2388 |
85.0 |
55.3 |
67.2 |
73.1 |
2. 文本到圖像生成 ¬∑ GenEval
模型 |
總體 ‚Üë |
FLUX - 1 - dev |
0.82 |
SD3 - Medium |
0.74 |
Janus - Pro - 7B |
0.80 |
BAGEL |
0.88 |
3. 圖像編輯
模型 |
GEdit - Bench - EN (SC) ‚Üë |
GEdit - Bench - EN (PQ) ‚Üë |
GEdit - Bench - EN (O) ‚Üë |
IntelligentBench ‚Üë |
Step1X - Edit |
7.09 |
6.76 |
6.70 |
14.9 |
Gemini - 2 - exp. |
6.73 |
6.61 |
6.32 |
57.6 |
BAGEL |
7.36 |
6.83 |
6.52 |
44.0 |
BAGEL+CoT |
- |
- |
- |
55.3 |
📄 許可證
BAGEL 採用 Apache 2.0 許可證。它是在 [Qwen2.5 - 7B - Instruct](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) 和 [siglip - so400m - 14 - 384 - flash - attn2](https://huggingface.co/HuggingFaceM4/siglip - so400m - 14 - 384 - flash - attn2) 模型的基礎上進行微調的,並使用了 [FLUX.1 - schnell VAE 模型](https://huggingface.co/black - forest - labs/FLUX.1 - schnell),所有這些都遵循 Apache 2.0 許可證。
📚 引用
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}
本倉庫託管了 BAGEL 的模型權重。有關安裝、使用說明和更多文檔,請訪問我們的 [GitHub 倉庫](https://github.com/bytedance - seed/BAGEL)。