V

VLM R1 Qwen2.5VL 3B OVD 0321

omlabによって開発
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
ダウンロード数 892
リリース時間 : 3/21/2025

モデル概要

このモデルは視覚言語モデルと強化学習技術を組み合わせ、オープン語彙物体検出(OVD)専用に設計されており、訓練データに明示的にラベル付けされていない新しいカテゴリの物体を認識できます。

モデル特徴

強化学習強化
VLM-R1強化学習アルゴリズムを用いてモデル性能を最適化
オープン語彙検出
訓練データに含まれていない新しいカテゴリの物体を認識可能
マルチモーダル理解
視覚と言語情報を統合して物体検出を実行

モデル能力

ゼロショット物体検出
オープン語彙認識
マルチモーダル理解
視覚言語推論

使用事例

コンピュータビジョン
インテリジェント監視
監視映像に映る未知のカテゴリの物体を検出
自動運転
道路環境において訓練データでカバーされていない新型の障害物を識別
小売分析
商品識別
新発売商品のカテゴリと属性を認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase