TreeVGR-7B-CI開源視覺定位推理模型 - 提供準確位置及可解釋推理路徑

首頁

Treevgr 7B CI

由HaochenWang開發

TreeVGR-7B 是一個可追溯證據增強的視覺定位推理模型，通過強化學習聯合監督定位和推理，實現準確的定位和可解釋的推理路徑。

文本生成圖像

Transformers

開源協議:Apache-2.0 #視覺定位推理 #可追溯證據增強 #二階推理能力

下載量 115

發布時間 : 7/3/2025

模型概述

TreeVGR-7B 是一個先進的開源視覺定位推理模型，基於 Qwen2.5-VL-7B 初始化，在多個基準測試中表現出色。

模型特點

可追溯證據增強

通過強化學習聯合監督定位和推理，實現準確的定位和可解釋的推理路徑。

複雜場景處理

能夠處理密集對象的複雜場景，並聚焦於細微目標的視覺感知。

二階推理能力

測試對象交互和空間層次結構，而不僅僅是簡單的對象定位。

模型能力

視覺定位推理

複雜場景分析

二階推理

可解釋性推理路徑

使用案例

視覺問答

TreeBench 評估

在 TreeBench 上進行視覺問答評估，測試模型的視覺感知和推理能力。

在 TreeBench 上準確率達到 49.38%，Mean IoU 為 43.3。

視覺定位

V* Bench 評估

在 V* Bench 上進行視覺定位評估，測試模型的定位能力。

性能提升 16.8%。

🚀 TreeVGR-7B：可追溯證據增強的視覺定位推理模型

本倉庫包含 TreeVGR-7B 模型，這是一個先進的開源視覺定位推理模型，相關內容可見於論文 Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology。

✨ 主要特性

像 OpenAI-o3 這樣的模型通過動態引用視覺區域開創了視覺定位推理的先河，就像人類“用圖像思考”一樣。然而，目前還沒有一個全面評估這些能力的基準。為了填補這一空白，我們提出了 TreeBench（可追溯證據評估基準），這是一個基於三個原則構建的診斷基準：

複雜場景中對細微目標的聚焦視覺感知；
通過邊界框評估實現可追溯證據；
二階推理，以測試對象交互和空間層次結構，而不僅僅是簡單的對象定位。

我們優先選擇包含密集對象的圖像，最初從 SA-1B 中採樣 1000 張高質量圖像，並邀請八位大語言模型（LMM）專家為每張圖像手動標註問題、候選選項和答案。經過三個階段的質量控制，TreeBench 包含 405 個具有挑戰性的視覺問答對，即使是最先進的模型在這個基準上也面臨困難，沒有一個模型的準確率達到 60%，例如 OpenAI-o3 的得分僅為 54.87。

此外，我們還引入了 TreeVGR（可追溯證據增強的視覺定位推理），這是一種通過強化學習聯合監督定位和推理的訓練範式，能夠實現準確的定位和可解釋的推理路徑。該模型基於 Qwen2.5-VL-7B 初始化，在 V* Bench（提升 16.8）、MME-RealWorld（提升 12.6）和 TreeBench（提升 13.4）上取得了顯著的改進，證明了可追溯性是推進視覺定位推理的關鍵。

TreeBench 概述

📦 安裝指南

pip3 install -r requirements.txt
pip3 install flash-attn --no-build-isolation -v

💻 使用示例

基礎用法

本倉庫提供了一個在 TreeBench 上進行 TreeVGR 簡單本地推理的演示。首先，克隆本倉庫：

git clone https://github.com/Haochen-Wang409/TreeVGR
cd TreeVGR

然後，運行 inference_treebench.py：

python3 inference_treebench.py

運行結果應如下所示：

Perception/Attributes 18/29=62.07
Perception/Material 7/13=53.85
Perception/Physical State 19/23=82.61
Perception/Object Retrieval 10/16=62.5
Perception/OCR 42/68=61.76
Reasoning/Perspective Transform 19/85=22.35
Reasoning/Ordering 20/57=35.09
Reasoning/Contact and Occlusion 25/41=60.98
Reasoning/Spatial Containment 20/29=68.97
Reasoning/Comparison 20/44=45.45
==> Overall 200/405=49.38
==> Mean IoU: 43.3

該結果與論文中的結果略有不同，因為我們主要使用了 VLMEvalKit 進行更全面的評估。

📚 詳細文檔

Hugging Face 資源

基準

TreeBench

模型檢查點

訓練數據集

引用

如果您發現本工作對您的研究和應用有幫助，請使用以下 BibTeX 進行引用：

@article{wang2025traceable,
  title={Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology},
  author={Haochen Wang and Xiangtai Li and Zilong Huang and Anran Wang and Jiacong Wang and Tao Zhang and Jiani Zheng and Sule Bai and Zijian Kang and Jiashi Feng and Zhuochen Wang and Zhaoxiang Zhang},
  journal={arXiv preprint arXiv:2507.07999},
  year={2025}
}

致謝

我們衷心感謝以下項目：

Qwen2.5-VL：我們使用的基礎模型；
VGR：我們的監督微調（SFT）數據集的來源；
V* 和 VisDrone：我們的強化學習（RL）數據集的圖像來源；
SA-1B：我們的 TreeBench 圖像來源；
LLaMA-Factory：我們使用的 SFT 代碼庫；
EasyR1：我們使用的 RL 代碼庫。

📄 許可證

本項目採用 Apache-2.0 許可證。

屬性	詳情
模型類型	可追溯證據增強的視覺定位推理模型
訓練數據	HaochenWang/TreeBench、HaochenWang/TreeVGR-RL-37K、HaochenWang/TreeVGR-SFT-35K