Treevgr 7B CI
TreeVGR-7Bは追跡可能な証拠を強化した視覚定位推論モデルで、強化学習により監督付きの定位と推論を統合し、正確な定位と解釈可能な推論経路を実現します。
ダウンロード数 115
リリース時間 : 7/3/2025
モデル概要
TreeVGR-7Bは、Qwen2.5-VL-7Bをベースに初期化された、高度なオープンソースの視覚定位推論モデルで、複数のベンチマークテストで優れた性能を発揮します。
モデル特徴
追跡可能な証拠の強化
強化学習により監督付きの定位と推論を統合し、正確な定位と解釈可能な推論経路を実現します。
複雑なシーンの処理
密集したオブジェクトの複雑なシーンを処理でき、微細な目標の視覚認識に焦点を当てます。
二次推論能力
オブジェクトの単純な定位だけでなく、オブジェクト間の相互作用と空間的な階層構造をテストします。
モデル能力
視覚定位推論
複雑なシーンの分析
二次推論
解釈可能な推論経路
使用事例
視覚質問応答
TreeBench評価
TreeBenchで視覚質問応答評価を行い、モデルの視覚認識と推論能力をテストします。
TreeBenchでの正解率は49.38%、Mean IoUは43.3です。
視覚定位
V* Bench評価
V* Benchで視覚定位評価を行い、モデルの定位能力をテストします。
性能が16.8%向上しました。
おすすめAIモデル
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
その他
Colossus Project FluxのNunchaku量子化バージョンで、テキストプロンプトに基づいて高品質な画像を生成することを目的としています。このモデルは、推論効率を最適化しながら、性能損失を最小限に抑えます。
画像生成 英語
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
画像生成テキスト
Transformers 英語

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。
大規模言語モデル
Transformers 英語

L
Mungert
263
2