V

Vigorl 7b Spatial

gsarchによって開発
ViGoRLは、強化学習によって微調整された視覚言語モデルで、テキストの推論ステップを視覚座標と明確に関連付け、正確な視覚推論と定位を実現します。
ダウンロード数 319
リリース時間 : 6/19/2025

モデル概要

ViGoRLは、強化学習(RL)によって微調整された視覚言語モデルで、テキストの推論ステップを視覚座標に明確に固定します。人間の視覚認知に触発され、ViGoRLは多輪視覚定位を採用し、画像領域を動的にスケーリングして、細粒度の視覚推論と定位を実行します。

モデル特徴

多輪視覚定位
人間の視覚認知に触発され、ViGoRLは多輪視覚定位を採用し、画像領域を動的にスケーリングして、細粒度の視覚推論と定位を実行します。
正確な視覚推論
このモデルは、正確な視覚定位と区域レベルの推論が必要な視覚推論タスクで優れた性能を発揮します。
複数の訓練パラダイム
モデルは、モンテカルロ木探索(MCTS)によって生成された視覚基盤の推論軌跡上で教師あり微調整(SFT)を使用して訓練され、その後、グループ相対方策最適化(GRPO)を使用して強化学習されます。

モデル能力

視覚推論
視覚定位
多輪対話
画像領域の動的スケーリング

使用事例

空間推論
SAT - 2
空間推論タスクに使用されます
BLINK
空間推論タスクに使用されます
RoboSpatial
空間推論タスクに使用されます
視覚検索
V*Bench
視覚検索タスクに使用されます
ウェブページの対話と定位
ScreenSpot(ProとV2)
ウェブページの対話と定位タスクに使用されます
VisualWebArena
ウェブページの対話と定位タスクに使用されます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase