🚀 BAGEL - 統合型マルチモーダル理解と生成モデル
BAGELは、大規模なマルチモーダルデータを用いて学習されたオープンソースのマルチモーダル基礎モデルです。標準的なマルチモーダル理解のリーダーボードで、Qwen2.5-VLやInternVL - 2.5などのトップレベルのオープンソースモデルを上回り、テキストから画像生成の品質もSD3などの強力な専用生成器と競争力を持ちます。
このリポジトリには、BAGELのモデルウェイトが含まれています。インストール方法、使用方法、および詳細なドキュメントについては、GitHubリポジトリをご覧ください。

✨ 主な機能
INT8量子化
ByteDance - Seed/BAGEL - 7B - MoTのINT8量子化モデルです。
モデルアーキテクチャ
BAGELはMixture - of - Transformer - Experts (MoT)アーキテクチャを採用しており、多様なマルチモーダル情報から学習する能力を最大化しています。同じ容量最大化の原則に従い、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために2つの別々のエンコーダを利用しています。全体的なフレームワークはNext Group of Token Predictionパラダイムに従っており、モデルは次の言語またはビジュアルトークンのグループを予測するように学習されます。

新興特性
BAGELの事前学習をより多くのマルチモーダルトークンで拡大するにつれて、理解、生成、編集タスクのすべてで一貫した性能向上が見られます。異なる能力は異なる学習段階で現れます。マルチモーダル理解と生成は早期に現れ、次に基本的な編集が現れ、複雑なインテリジェント編集は後に現れます。この段階的な進行は、高度なマルチモーダル推論が十分に形成された基礎スキルに基づいて構築される新興パターンを示唆しています。アブレーション研究により、VAEとViTの特徴を組み合わせることでインテリジェント編集が大幅に改善されることが示されており、複雑なマルチモーダル推論を可能にするビジュアルセマンティックコンテキストの重要性を強調しています。

ベンチマーク
1. ビジュアル理解
モデル |
MME ‚Üë |
MMBench ‚Üë |
MMMU ‚Üë |
MM - Vet ‚Üë |
MathVista ‚Üë |
Janus - Pro - 7B |
- |
79.2 |
41.0 |
50.0 |
– |
Qwen2.5 - VL - 7B |
2347 |
83.5 |
58.6 |
67.1 |
68.2 |
BAGEL |
2388 |
85.0 |
55.3 |
67.2 |
73.1 |
2. テキストから画像生成 - GenEval
モデル |
全体 ‚Üë |
FLUX - 1 - dev |
0.82 |
SD3 - Medium |
0.74 |
Janus - Pro - 7B |
0.80 |
BAGEL |
0.88 |
3. 画像編集
モデル |
GEdit - Bench - EN (SC) ‚Üë |
GEdit - Bench - EN (PQ) ‚Üë |
GEdit - Bench - EN (O) ‚Üë |
IntelligentBench ‚Üë |
Step1X - Edit |
7.09 |
6.76 |
6.70 |
14.9 |
Gemini - 2 - exp. |
6.73 |
6.61 |
6.32 |
57.6 |
BAGEL |
7.36 |
6.83 |
6.52 |
44.0 |
BAGEL+CoT |
– |
– |
– |
55.3 |
🔧 技術詳細
BAGELは、言語、画像、ビデオ、ウェブデータにまたがる数兆のインターリーブされたマルチモーダルトークンに対する事前学習、継続学習、および教師あり微調整を通じてMoTの容量を拡大しています。標準的な理解と生成のベンチマークでオープンモデルを上回り、自由形式の画像編集、未来フレーム予測、3D操作、ワールドナビゲーション、および逐次推論などの高度なコンテキスト内マルチモーダル能力を示します。
📄 ライセンス
BAGELはApache 2.0ライセンスの下で提供されています。Qwen2.5 - 7B - Instructとsiglip - so400m - 14 - 384 - flash - attn2モデルから微調整されており、FLUX.1 - schnell VAEモデルを使用しています。これらすべてがApache 2.0ライセンスの下にあります。
📚 引用
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}
📦 モデル情報
属性 |
詳情 |
モデルタイプ |
INT8量子化モデル |
ベースモデル |
ByteDance - Seed/BAGEL - 7B - MoT |
ベースモデル関係 |
量子化 |
パイプラインタグ |
any - to - any |
ライブラリ名 |
bagel - mot |
タグ |
quantized, bagel, mot, int8 |