VLM R1 Qwen2.5VL 3B OVD 0321
V
VLM R1 Qwen2.5VL 3B OVD 0321
omlabによって開発
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
ダウンロード数 892
リリース時間 : 3/21/2025
モデル概要
このモデルは視覚言語モデルと強化学習技術を組み合わせ、オープン語彙物体検出(OVD)専用に設計されており、訓練データに明示的にラベル付けされていない新しいカテゴリの物体を認識できます。
モデル特徴
強化学習強化
VLM-R1強化学習アルゴリズムを用いてモデル性能を最適化
オープン語彙検出
訓練データに含まれていない新しいカテゴリの物体を認識可能
マルチモーダル理解
視覚と言語情報を統合して物体検出を実行
モデル能力
ゼロショット物体検出
オープン語彙認識
マルチモーダル理解
視覚言語推論
使用事例
コンピュータビジョン
インテリジェント監視
監視映像に映る未知のカテゴリの物体を検出
自動運転
道路環境において訓練データでカバーされていない新型の障害物を識別
小売分析
商品識別
新発売商品のカテゴリと属性を認識
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98