🚀 BAGEL - 多模态理解与生成统一模型
BAGEL 是一个拥有 70 亿活跃参数(总计 140 亿)的开源多模态基础模型,它在大规模交错多模态数据上进行训练。该模型在标准多模态理解排行榜上超越了当前顶级的开源视觉语言模型(VLM),如 Qwen2.5 - VL 和 InternVL - 2.5,并且在文本到图像生成方面的质量可与强大的专业生成器(如 SD3)相媲美。此外,在经典图像编辑场景中,BAGEL 也展现出比领先的开源模型更出色的定性结果。更重要的是,它还具备自由形式的视觉操作、多视图合成和世界导航等能力,这些能力构成了超越以往图像编辑模型范围的“世界建模”任务。
INT8 量化的 [ByteDance - Seed/BAGEL - 7B - MoT](https://huggingface.co/ByteDance - Seed/BAGEL - 7B - MoT)
本仓库托管了 BAGEL 的模型权重。有关安装、使用说明和更多文档,请访问我们的 [GitHub 仓库](https://github.com/bytedance - seed/BAGEL)。

✨ 主要特性
方法
BAGEL 采用了混合变压器专家(Mixture - of - Transformer - Experts,MoT)架构,以最大限度地发挥模型从丰富多样的多模态信息中学习的能力。遵循相同的能力最大化原则,它使用两个独立的编码器来捕获图像的像素级和语义级特征。整体框架遵循下一组令牌预测范式,即模型被训练来预测下一组语言或视觉令牌作为压缩目标。
BAGEL 通过在跨越语言、图像、视频和网络数据的数万亿交错多模态令牌上进行预训练、持续训练和监督微调,扩展了 MoT 的能力。它在标准理解和生成基准测试中超越了开源模型,并展示了先进的上下文多模态能力,如自由形式的图像编辑、未来帧预测、3D 操作、世界导航和顺序推理。

新兴特性

随着我们使用更多的多模态令牌对 BAGEL 进行预训练扩展,我们观察到在理解、生成和编辑任务中性能持续提升。不同的能力在不同的训练阶段出现 —— 多模态理解和生成能力早期出现,接着是基本编辑能力,而复杂的智能编辑能力则在后期出现。这种分阶段的进展表明了一种新兴模式,即先进的多模态推理建立在完善的基础技能之上。消融研究进一步表明,结合变分自编码器(VAE)和视觉变压器(ViT)特征显著提高了智能编辑能力,强调了视觉语义上下文在实现复杂多模态推理中的重要性,并进一步支持了其在先进能力出现中的作用。
基准测试
1. 视觉理解
模型 |
MME 得分 |
MMBench 得分 |
MMMU 得分 |
MM - Vet 得分 |
MathVista 得分 |
Janus - Pro - 7B |
- |
79.2 |
41.0 |
50.0 |
- |
Qwen2.5 - VL - 7B |
2347 |
83.5 |
58.6 |
67.1 |
68.2 |
BAGEL |
2388 |
85.0 |
55.3 |
67.2 |
73.1 |
2. 文本到图像生成 - GenEval
模型 |
总体得分 |
FLUX - 1 - dev |
0.82 |
SD3 - Medium |
0.74 |
Janus - Pro - 7B |
0.80 |
BAGEL |
0.88 |
3. 图像编辑
模型 |
GEdit - Bench - EN (SC) 得分 |
GEdit - Bench - EN (PQ) 得分 |
GEdit - Bench - EN (O) 得分 |
IntelligentBench 得分 |
Step1X - Edit |
7.09 |
6.76 |
6.70 |
14.9 |
Gemini - 2 - exp. |
6.73 |
6.61 |
6.32 |
57.6 |
BAGEL |
7.36 |
6.83 |
6.52 |
44.0 |
BAGEL + CoT |
- |
- |
- |
55.3 |
📄 许可证
BAGEL 采用 Apache 2.0 许可证。它是在 [Qwen2.5 - 7B - Instruct](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) 和 [siglip - so400m - 14 - 384 - flash - attn2](https://huggingface.co/HuggingFaceM4/siglip - so400m - 14 - 384 - flash - attn2) 模型的基础上进行微调的,并使用了 [FLUX.1 - schnell VAE 模型](https://huggingface.co/black - forest - labs/FLUX.1 - schnell),所有这些模型均采用 Apache 2.0 许可证。
📚 详细文档
引用
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}