🚀 BAGEL - 多模態理解與生成統一模型
BAGEL 是一個擁有 70 億活躍參數(總計 140 億)的開源多模態基礎模型,它在大規模交錯多模態數據上進行訓練。該模型在標準多模態理解排行榜上超越了當前頂級的開源視覺語言模型(VLM),如 Qwen2.5 - VL 和 InternVL - 2.5,並且在文本到圖像生成方面的質量可與強大的專業生成器(如 SD3)相媲美。此外,在經典圖像編輯場景中,BAGEL 也展現出比領先的開源模型更出色的定性結果。更重要的是,它還具備自由形式的視覺操作、多視圖合成和世界導航等能力,這些能力構成了超越以往圖像編輯模型範圍的“世界建模”任務。
INT8 量化的 [ByteDance - Seed/BAGEL - 7B - MoT](https://huggingface.co/ByteDance - Seed/BAGEL - 7B - MoT)
本倉庫託管了 BAGEL 的模型權重。有關安裝、使用說明和更多文檔,請訪問我們的 [GitHub 倉庫](https://github.com/bytedance - seed/BAGEL)。

✨ 主要特性
方法
BAGEL 採用了混合變壓器專家(Mixture - of - Transformer - Experts,MoT)架構,以最大限度地發揮模型從豐富多樣的多模態信息中學習的能力。遵循相同的能力最大化原則,它使用兩個獨立的編碼器來捕獲圖像的像素級和語義級特徵。整體框架遵循下一組令牌預測範式,即模型被訓練來預測下一組語言或視覺令牌作為壓縮目標。
BAGEL 通過在跨越語言、圖像、視頻和網絡數據的數萬億交錯多模態令牌上進行預訓練、持續訓練和監督微調,擴展了 MoT 的能力。它在標準理解和生成基準測試中超越了開源模型,並展示了先進的上下文多模態能力,如自由形式的圖像編輯、未來幀預測、3D 操作、世界導航和順序推理。

新興特性

隨著我們使用更多的多模態令牌對 BAGEL 進行預訓練擴展,我們觀察到在理解、生成和編輯任務中性能持續提升。不同的能力在不同的訓練階段出現 —— 多模態理解和生成能力早期出現,接著是基本編輯能力,而複雜的智能編輯能力則在後期出現。這種分階段的進展表明了一種新興模式,即先進的多模態推理建立在完善的基礎技能之上。消融研究進一步表明,結合變分自編碼器(VAE)和視覺變壓器(ViT)特徵顯著提高了智能編輯能力,強調了視覺語義上下文在實現複雜多模態推理中的重要性,並進一步支持了其在先進能力出現中的作用。
基準測試
1. 視覺理解
模型 |
MME 得分 |
MMBench 得分 |
MMMU 得分 |
MM - Vet 得分 |
MathVista 得分 |
Janus - Pro - 7B |
- |
79.2 |
41.0 |
50.0 |
- |
Qwen2.5 - VL - 7B |
2347 |
83.5 |
58.6 |
67.1 |
68.2 |
BAGEL |
2388 |
85.0 |
55.3 |
67.2 |
73.1 |
2. 文本到圖像生成 - GenEval
模型 |
總體得分 |
FLUX - 1 - dev |
0.82 |
SD3 - Medium |
0.74 |
Janus - Pro - 7B |
0.80 |
BAGEL |
0.88 |
3. 圖像編輯
模型 |
GEdit - Bench - EN (SC) 得分 |
GEdit - Bench - EN (PQ) 得分 |
GEdit - Bench - EN (O) 得分 |
IntelligentBench 得分 |
Step1X - Edit |
7.09 |
6.76 |
6.70 |
14.9 |
Gemini - 2 - exp. |
6.73 |
6.61 |
6.32 |
57.6 |
BAGEL |
7.36 |
6.83 |
6.52 |
44.0 |
BAGEL + CoT |
- |
- |
- |
55.3 |
📄 許可證
BAGEL 採用 Apache 2.0 許可證。它是在 [Qwen2.5 - 7B - Instruct](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) 和 [siglip - so400m - 14 - 384 - flash - attn2](https://huggingface.co/HuggingFaceM4/siglip - so400m - 14 - 384 - flash - attn2) 模型的基礎上進行微調的,並使用了 [FLUX.1 - schnell VAE 模型](https://huggingface.co/black - forest - labs/FLUX.1 - schnell),所有這些模型均採用 Apache 2.0 許可證。
📚 詳細文檔
引用
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}