🚀 RoboBrain2.0-7B GGUFモデル
RoboBrain2.0-7B GGUFモデルは、ロボット工学分野における高度な知能を実現するためのモデルです。このモデルは、最新の技術を用いて生成され、高精度な推論やタスク計画をサポートします。
🚀 クイックスタート
環境セットアップ
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt
簡単な推論
注意: RoboBrain 2.0の使用方法については、RoboBrain 2.0 Githubを参照してください
✨ 主な機能
- 対話型推論:長期計画と閉ループフィードバックによる対話型推論をサポートします。
- 空間知覚:複雑な指示から正確なポイントとバウンディングボックスを予測する空間知覚機能を備えています。
- 時間知覚:未来の軌跡を推定する時間知覚機能を持っています。
- シーン推論:リアルタイムの構造化メモリの構築と更新によるシーン推論を行います。
📦 インストール
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt
📚 ドキュメント
モデル生成詳細
このモデルは、llama.cpp のコミット 6adc3c3e
を使用して生成されました。
量子化の改善
標準のIMatrix量子化は、低ビット深度では特にMixture of Experts (MoE) モデルで性能が低下することがわかりました。この問題を解決するために、llama.cpp
の --tensor-type
オプションを使用して、重要なレイヤーの精度を手動で引き上げています。実装はこちらを参照してください:Layer bumping with llama.cpp
この方法はモデルファイルサイズを増やしますが、量子化レベルに対する精度を大幅に向上させます。
モデル選択ガイド
こちらをクリックして、適切なGGUFモデル形式の選択に関する情報を取得してください
モデルアーキテクチャ
RoboBrain 2.0 は、マルチ画像、長いビデオ、および 高解像度の視覚入力 をサポートし、言語側では複雑なタスク指示と構造化された シーングラフ を扱います。視覚入力はVision EncoderとMLP Projectorを介して処理され、テキスト入力は統一されたトークンストリームにトークン化されます。すべての入力は、LLM Decoder に供給され、長い思考連鎖推論 を行い、構造化された計画、空間関係、および 相対 と 絶対 の両方の座標を出力します。
モデルズー
その他の結果
空間推論とタスク計画に関するベンチマーク比較。RoboBrain2.0-32B は、4つの主要なエンボディードインテリジェンスベンチマークで最先端の性能を達成しています:BLINK-Spatial、CV-Bench、EmbSpatial、および RefSpatial。これは、o4-miniやQwen2.5-VLなどの主要なオープンソースモデルを上回り、Gemini 2.5 ProやClaude Sonnet 4などのクローズドソースモデルも上回っています。特に、難しい RefSpatial ベンチマークでは、RoboBrain2.0 は50%以上の絶対的な改善を示しています。
🔧 技術詳細
モデルテスト
このモデルを利用して、AI-Powered Quantum Network Monitor Assistant のテストを行っています。テストには以下のことが含まれます:
- ライブネットワークサービスに対する 関数呼び出し
- 以下のタスクを処理しながら、モデルをどれだけ小さくできるか:
- 自動化された Nmapセキュリティスキャン
- 量子準備チェック
- ネットワーク監視タスク
テスト用モデル
- TestLLM:現在の実験用モデル (huggingfaceのDocker空間で2つのCPUスレッドでllama.cppを使用)
- ゼロコンフィギュレーションセットアップ
- 30秒以上のロード時間 (推論は遅いが APIコストがかからない)。コストが低いため、トークン制限はありません。
- 協力者募集中! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
その他のアシスタント
- TurboLLM:gpt-4.1-mini を使用
- 非常に良好な性能を発揮しますが、残念ながらOpenAIはトークンごとに料金を請求します。そのため、トークンの使用量は制限されています。
- 量子ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成します。
- リアルタイムのネットワーク診断と監視
- セキュリティ監査
- ペネトレーションテスト (Nmap/Metasploit)
- HugLLM:最新のオープンソースモデル
- Hugging Face Inference APIで実行されます。Novitaにホストされている最新のモデルを使用して、かなり良好な性能を発揮します。
テストコマンド例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)"
注:.NETコードを実行するには、Quantum Network Monitor Agent をインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください!
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。
引用
@article{RoboBrain 2.0 Technical Report,
title={RoboBrain 2.0 Technical Report},
author={BAAI RoboBrain Team},
journal={arXiv preprint arXiv:TODO},
year={2025}
}
@article{RoboBrain 1.0,
title={Robobrain: A unified brain model for robotic manipulation from abstract to concrete},
author={Ji, Yuheng and Tan, Huajie and Shi, Jiayu and Hao, Xiaoshuai and Zhang, Yuan and Zhang, Hengyuan and Wang, Pengwei and Zhao, Mengdi and Mu, Yao and An, Pengju and others},
journal={arXiv preprint arXiv:2502.21257},
year={2025}
}
@article{RoboOS,
title={RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration},
author={Tan, Huajie and Hao, Xiaoshuai and Lin, Minglan and Wang, Pengwei and Lyu, Yaoxu and Cao, Mingyu and Wang, Zhongyuan and Zhang, Shanghang},
journal={arXiv preprint arXiv:2505.03673},
year={2025}
}
@article{zhou2025roborefer,
title={RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics},
author={Zhou, Enshen and An, Jingkun and Chi, Cheng and Han, Yi and Rong, Shanyu and Zhang, Chi and Wang, Pengwei and Wang, Zhongyuan and Huang, Tiejun and Sheng, Lu and others},
journal={arXiv preprint arXiv:2506.04308},
year={2025}
}
@article{Reason-RFT,
title={Reason-rft: Reinforcement fine-tuning for visual reasoning},
author={Tan, Huajie and Ji, Yuheng and Hao, Xiaoshuai and Lin, Minglan and Wang, Pengwei and Wang, Zhongyuan and Zhang, Shanghang},
journal={arXiv preprint arXiv:2503.20752},
year={2025}
}
@article{Code-as-Monitor,
title={Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection},
author={Zhou, Enshen and Su, Qi and Chi, Cheng and Zhang, Zhizheng and Wang, Zhongyuan and Huang, Tiejun and Sheng, Lu and Wang, He},
journal={arXiv preprint arXiv:2412.04455},
year={2024}
}