RoboBrain2.0 - 7B - GGUFオープンソースモデル - ロボットの多エージェントタスク計画と実行を支援

ホーム

Robobrain2.0 7B GGUF

Mungertによって開発

RoboBrain2.0-7Bはロボット分野向けに設計された強力なモデルで、マルチエージェントタスク計画、空間推論、閉ループ実行などの面で著しい向上が見られます。

マルチモーダル融合

Transformers

オープンソースライセンス:Apache-2.0 #ロボットタスク計画 #空間推論最適化 #閉ループ実行制御

ダウンロード数 157

リリース時間 : 6/17/2025

モデル概要

このモデルはロボットアプリケーションに知的な意思決定と実行能力を提供し、複数の画像、長時間のビデオ、高解像度のビジュアル入力、および複雑なタスク命令とシーングラフの処理をサポートします。

モデル特徴

対話型推論

長期的な計画と閉ループフィードバック能力を備えています

空間感知

複雑な命令に基づいて正確な点とバウンディングボックスの予測が可能です

時間感知

将来の軌跡推定が可能です

シーン推論

リアルタイムの構造化メモリの構築と更新によって実現されます

モデル能力

マルチエージェントタスク計画

空間推論

閉ループ実行

ビジュアル入力処理

複雑な命令理解

構造化シーングラフ生成

使用事例

ロボット制御

知的意思決定

ロボットに知的な意思決定のサポートを提供します

タスク実行の効率と精度を向上させます

空間ナビゲーション

ロボットの正確な空間位置決めとナビゲーションを支援します

空間タスクの完了率を向上させます

安全監視

量子ネットワーク監視

量子ネットワークの安全チェックと監視に使用されます

量子レディの安全チェックを実現します

🚀 RoboBrain2.0-7B GGUFモデル

RoboBrain2.0-7B GGUFモデルは、ロボット工学分野における高度な知能を実現するためのモデルです。このモデルは、最新の技術を用いて生成され、高精度な推論やタスク計画をサポートします。

🚀 クイックスタート

環境セットアップ

# リポジトリをクローンします。
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

# Conda環境を構築します。
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt

簡単な推論

注意: RoboBrain 2.0の使用方法については、RoboBrain 2.0 Githubを参照してください

✨ 主な機能

対話型推論：長期計画と閉ループフィードバックによる対話型推論をサポートします。
空間知覚：複雑な指示から正確なポイントとバウンディングボックスを予測する空間知覚機能を備えています。
時間知覚：未来の軌跡を推定する時間知覚機能を持っています。
シーン推論：リアルタイムの構造化メモリの構築と更新によるシーン推論を行います。

📦 インストール

# リポジトリをクローンします。
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

# Conda環境を構築します。
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt

📚 ドキュメント

モデル生成詳細

このモデルは、llama.cpp のコミット 6adc3c3e を使用して生成されました。

量子化の改善

標準のIMatrix量子化は、低ビット深度では特にMixture of Experts (MoE) モデルで性能が低下することがわかりました。この問題を解決するために、llama.cpp の --tensor-type オプションを使用して、重要なレイヤーの精度を手動で引き上げています。実装はこちらを参照してください：Layer bumping with llama.cpp

この方法はモデルファイルサイズを増やしますが、量子化レベルに対する精度を大幅に向上させます。

モデル選択ガイド

こちらをクリックして、適切なGGUFモデル形式の選択に関する情報を取得してください

モデルアーキテクチャ

RoboBrain 2.0 は、マルチ画像、長いビデオ、および 高解像度の視覚入力 をサポートし、言語側では複雑なタスク指示と構造化された シーングラフ を扱います。視覚入力はVision EncoderとMLP Projectorを介して処理され、テキスト入力は統一されたトークンストリームにトークン化されます。すべての入力は、LLM Decoder に供給され、長い思考連鎖推論 を行い、構造化された計画、空間関係、および相対と絶対の両方の座標を出力します。

モデルズー

モデル	チェックポイント	説明
RoboBrain 2.0 7B	BAAI/RoboBrain2.0-7B	RoboBrain2.0の7Bパラメータバージョン
RoboBrain 2.0 32B	BAAI/RoboBrain2.0-32B	RoboBrain2.0の32Bパラメータバージョン (近日公開予定)

その他の結果

空間推論とタスク計画に関するベンチマーク比較。RoboBrain2.0-32B は、4つの主要なエンボディードインテリジェンスベンチマークで最先端の性能を達成しています：BLINK-Spatial、CV-Bench、EmbSpatial、および RefSpatial。これは、o4-miniやQwen2.5-VLなどの主要なオープンソースモデルを上回り、Gemini 2.5 ProやClaude Sonnet 4などのクローズドソースモデルも上回っています。特に、難しい RefSpatial ベンチマークでは、RoboBrain2.0 は50%以上の絶対的な改善を示しています。

🔧 技術詳細

モデルテスト

このモデルを利用して、AI-Powered Quantum Network Monitor Assistant のテストを行っています。テストには以下のことが含まれます：

ライブネットワークサービスに対する 関数呼び出し
以下のタスクを処理しながら、モデルをどれだけ小さくできるか：
- 自動化された Nmapセキュリティスキャン
- 量子準備チェック
- ネットワーク監視タスク

テスト用モデル

TestLLM：現在の実験用モデル (huggingfaceのDocker空間で2つのCPUスレッドでllama.cppを使用)
- ゼロコンフィギュレーションセットアップ
- 30秒以上のロード時間 (推論は遅いが APIコストがかからない)。コストが低いため、トークン制限はありません。
- 協力者募集中！ エッジデバイスAIに興味がある方は、一緒に協力しましょう！

その他のアシスタント

TurboLLM：gpt-4.1-mini を使用
- 非常に良好な性能を発揮しますが、残念ながらOpenAIはトークンごとに料金を請求します。そのため、トークンの使用量は制限されています。
- 量子ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成します。
- リアルタイムのネットワーク診断と監視
- セキュリティ監査
- ペネトレーションテスト (Nmap/Metasploit)
HugLLM：最新のオープンソースモデル
- Hugging Face Inference APIで実行されます。Novitaにホストされている最新のモデルを使用して、かなり良好な性能を発揮します。

テストコマンド例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注：.NETコードを実行するには、Quantum Network Monitor Agent をインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

引用

@article{RoboBrain 2.0 Technical Report,
    title={RoboBrain 2.0 Technical Report},
    author={BAAI RoboBrain Team},
    journal={arXiv preprint arXiv:TODO},
    year={2025}
}

@article{RoboBrain 1.0,
    title={Robobrain: A unified brain model for robotic manipulation from abstract to concrete},
    author={Ji, Yuheng and Tan, Huajie and Shi, Jiayu and Hao, Xiaoshuai and Zhang, Yuan and Zhang, Hengyuan and Wang, Pengwei and Zhao, Mengdi and Mu, Yao and An, Pengju and others},
    journal={arXiv preprint arXiv:2502.21257},
    year={2025}
}

@article{RoboOS,
    title={RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration},
    author={Tan, Huajie and Hao, Xiaoshuai and Lin, Minglan and Wang, Pengwei and Lyu, Yaoxu and Cao, Mingyu and Wang, Zhongyuan and Zhang, Shanghang},
    journal={arXiv preprint arXiv:2505.03673},
    year={2025}
}

@article{zhou2025roborefer,
    title={RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics},
    author={Zhou, Enshen and An, Jingkun and Chi, Cheng and Han, Yi and Rong, Shanyu and Zhang, Chi and Wang, Pengwei and Wang, Zhongyuan and Huang, Tiejun and Sheng, Lu and others},
    journal={arXiv preprint arXiv:2506.04308},
    year={2025}
}

@article{Reason-RFT,
    title={Reason-rft: Reinforcement fine-tuning for visual reasoning},
    author={Tan, Huajie and Ji, Yuheng and Hao, Xiaoshuai and Lin, Minglan and Wang, Pengwei and Wang, Zhongyuan and Zhang, Shanghang},
    journal={arXiv preprint arXiv:2503.20752},
    year={2025}
}

@article{Code-as-Monitor,
    title={Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection},
    author={Zhou, Enshen and Su, Qi and Chi, Cheng and Zhang, Zhizheng and Wang, Zhongyuan and Huang, Tiejun and Sheng, Lu and Wang, He},
    journal={arXiv preprint arXiv:2412.04455},
    year={2024}
}