VLM - R1 - Qwen2.5VL - 3B - OVD - 0321オープンソース目標検出モデル、オープンボキャブラリ検出タスクをサポート！

ホーム

VLM R1 Qwen2.5VL 3B OVD 0321

omlabによって開発

Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #VLM-R1強化学習 #マルチモーダル視覚言語

ダウンロード数 892

リリース時間 : 3/21/2025

モデル概要

このモデルは視覚言語モデルと強化学習技術を組み合わせ、オープン語彙物体検出（OVD）専用に設計されており、訓練データに明示的にラベル付けされていない新しいカテゴリの物体を認識できます。

モデル特徴

強化学習強化

VLM-R1強化学習アルゴリズムを用いてモデル性能を最適化

オープン語彙検出

訓練データに含まれていない新しいカテゴリの物体を認識可能

マルチモーダル理解

視覚と言語情報を統合して物体検出を実行

モデル能力

ゼロショット物体検出

オープン語彙認識

マルチモーダル理解

視覚言語推論

使用事例

コンピュータビジョン

インテリジェント監視

監視映像に映る未知のカテゴリの物体を検出

自動運転

道路環境において訓練データでカバーされていない新型の障害物を識別

小売分析

商品識別

新発売商品のカテゴリと属性を認識

属性	详情
モデルタイプ	ゼロショット物体検出
ベースモデル	Qwen/Qwen2.5 - VL - 3B - Instruct
訓練データ	omlab/OVDEval

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

VLM R1 Qwen2.5VL 3B OVD 0321

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Qwen 2.5VL 3Bを強化したゼロショット物体検出モデル

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

モデル情報

引用情報