Qwen2.5VL-3B-VLM-R1-REC-500stepsオープンソースモデル

ホーム

Qwen2.5vl 3B VLM R1 REC 500steps

omlabによって開発

Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。

テキスト生成画像

Safetensors

英語#ゼロショット物体検出 #マルチモーダル視覚言語モデル #強化学習最適化

ダウンロード数 976

リリース時間 : 2/20/2025

モデル概要

このモデルは視覚と言語理解能力を組み合わせ、ゼロショット物体検出タスクに特化しており、自然言語の記述に基づいて画像内の特定の対象を特定できます。

モデル特徴

強化学習強化

VLM-R1強化学習技術を採用し、指示表現理解タスクにおけるモデルの性能を向上させます。

ゼロショット能力

特定の対象に対して訓練を行うことなく物体検出タスクを実行できます。

マルチモーダル理解

視覚と言語情報を同時に処理し、クロスモーダル理解を実現します。

モデル能力

画像理解

自然言語処理

物体検出

クロスモーダル推論

使用事例

コンピュータビジョン

画像検索

自然言語の記述に基づいて画像ライブラリから特定の対象を検索

記述された対象を正確に識別・特定可能

インテリジェントアシスタンス

視覚障害者が画像内容を理解するのを支援

画像内の特定対象を音声で説明

ロボット技術

対象把持

音声指令に基づいて特定の物体を識別・把持

ロボット操作の精度と柔軟性を向上

Property	Details
Datasets	lmms - lab/RefCOCOg

Property	Details
Language	en

Property	Details
Base Model	Qwen/Qwen2.5 - VL - 3B - Instruct

Property	Details
Pipeline Tag	zero - shot - object - detection

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Qwen2.5vl 3B VLM R1 REC 500steps

モデル概要

モデル特徴

モデル能力

使用事例

🚀 REC強化型Qwen 2.5VL 3B

🚀 クイックスタート

📚 ドキュメント

データセット

言語

ベースモデル

パイプラインタグ

引用