TreeVGR-7B-CIオープンソースビジュアルローカリゼーション推論モデル

ホーム

Treevgr 7B CI

HaochenWangによって開発

TreeVGR-7Bは追跡可能な証拠を強化した視覚定位推論モデルで、強化学習により監督付きの定位と推論を統合し、正確な定位と解釈可能な推論経路を実現します。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #視覚定位推論 #追跡可能な証拠の強化 #二次推論能力

ダウンロード数 115

リリース時間 : 7/3/2025

モデル概要

TreeVGR-7Bは、Qwen2.5-VL-7Bをベースに初期化された、高度なオープンソースの視覚定位推論モデルで、複数のベンチマークテストで優れた性能を発揮します。

モデル特徴

追跡可能な証拠の強化

強化学習により監督付きの定位と推論を統合し、正確な定位と解釈可能な推論経路を実現します。

複雑なシーンの処理

密集したオブジェクトの複雑なシーンを処理でき、微細な目標の視覚認識に焦点を当てます。

二次推論能力

オブジェクトの単純な定位だけでなく、オブジェクト間の相互作用と空間的な階層構造をテストします。

モデル能力

視覚定位推論

複雑なシーンの分析

二次推論

解釈可能な推論経路

使用事例

視覚質問応答

TreeBench評価

TreeBenchで視覚質問応答評価を行い、モデルの視覚認識と推論能力をテストします。

TreeBenchでの正解率は49.38%、Mean IoUは43.3です。

視覚定位

V* Bench評価

V* Benchで視覚定位評価を行い、モデルの定位能力をテストします。

性能が16.8%向上しました。

🚀 TreeVGR-7B: 追跡可能な証拠による視覚的根拠付き推論モデル

このリポジトリには、最先端のオープンソースの視覚的根拠付き推論モデルであるTreeVGR-7Bモデルが含まれています。このモデルは論文 Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology で紹介されています。

✨ 主な機能

OpenAI-o3のようなモデルは、人間の「画像を使った思考」のように、動的に視覚領域を参照することで視覚的根拠付き推論を先駆けています。しかし、これらの機能を包括的に評価するベンチマークは存在しません。このギャップを埋めるために、我々はTreeBench（追跡可能な証拠評価ベンチマーク）を提案します。これは3つの原則に基づいて構築された診断ベンチマークです。（1）複雑なシーンにおける微妙なターゲットの焦点を絞った視覚認知、（2）バウンディングボックス評価による追跡可能な証拠、（3）単純なオブジェクトの位置特定を超えたオブジェクトの相互作用と空間階層をテストする二次推論。高密度のオブジェクトを含む画像を優先して、我々は最初にSA-1Bから1Kの高品質画像をサンプリングし、8人のLMMエキスパートを参加させて、各画像に対する質問、候補選択肢、および回答を手動でアノテーションしました。3段階の品質管理の後、TreeBenchは405の難しい視覚的質問応答ペアから構成され、最も高度なモデルでもこのベンチマークに苦戦し、精度が60%に達するモデルはありません。例えば、OpenAI-o3のスコアはわずか54.87です。さらに、我々はTreeVGR（追跡可能な証拠による視覚的根拠付き推論）を導入します。これは強化学習を用いて位置特定と推論を共同で監督するトレーニングパラダイムで、正確な位置特定と説明可能な推論経路を可能にします。Qwen2.5-VL-7Bから初期化されたTreeVGRは、V* Bench (+16.8)、MME-RealWorld (+12.6)、およびTreeBench (+13.4) を改善し、追跡可能性が視覚的根拠付き推論の進歩に不可欠であることを証明しています。

TreeBench Overview

📦 インストール

pip3 install -r requirements.txt
pip3 install flash-attn --no-build-isolation -v

💻 使用例

基本的な使用法

このリポジトリは、TreeBench上でのTreeVGRの簡単なローカル推論デモを提供しています。まず、このリポジトリをクローンします。

git clone https://github.com/Haochen-Wang409/TreeVGR
cd TreeVGR

次に、inference_treebench.pyを実行します。

python3 inference_treebench.py

これにより、以下のような出力が得られます。

Perception/Attributes 18/29=62.07
Perception/Material 7/13=53.85
Perception/Physical State 19/23=82.61
Perception/Object Retrieval 10/16=62.5
Perception/OCR 42/68=61.76
Reasoning/Perspective Transform 19/85=22.35
Reasoning/Ordering 20/57=35.09
Reasoning/Contact and Occlusion 25/41=60.98
Reasoning/Spatial Containment 20/29=68.97
Reasoning/Comparison 20/44=45.45
==> Overall 200/405=49.38
==> Mean IoU: 43.3

この結果は論文とわずかに異なります。我々は主に VLMEvalKit を使用してより包括的な評価を行っているためです。

📚 ドキュメント

Hugging Faceのリソース

ベンチマーク

TreeBench

チェックポイント

トレーニングデータセット

引用

この研究があなたの研究やアプリケーションに役立つ場合、以下のBibTeXを使用して引用してください。

@article{wang2025traceable,
  title={Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology},
  author={Haochen Wang and Xiangtai Li and Zilong Huang and Anran Wang and Jiacong Wang and Tao Zhang and Jiani Zheng and Sule Bai and Zijian Kang and Jiashi Feng and Zhuochen Wang and Zhaoxiang Zhang},
  journal={arXiv preprint arXiv:2507.07999},
  year={2025}
}

謝辞

我々は、以下のプロジェクトに心から感謝を表します。

Qwen2.5-VL: 我々が利用したベースモデル。
VGR: 我々のSFTデータセットのソース。
V* および VisDrone: 我々のRLデータセットの画像ソース。
SA-1B: 我々のTreeBenchの画像ソース。
LLaMA-Factory: 我々が利用したSFTコードベース。
EasyR1: 我々が利用したRLコードベース。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下でライセンスされています。