R1-VL-2Bオープンソース視覚言語推論モデル - Qwen2に基づいて最適化し、視覚言語理解を支援

Home

R1 VL 2B

Developed by jingyiZ00

R1-VL-2Bは、段階的グループ相対戦略最適化（StepGRPO）によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。

画像生成テキスト

Transformers

Open Source License:Apache-2.0 #画像テキスト推論 #マルチモーダル命令微調整 #軽量視覚言語

Downloads 272

Release Time : 3/18/2025

Model Overview

R1-VL-2Bは視覚言語モデルで、画像テキストからテキストへのタスクに特化しており、画像に関連するテキスト内容を理解し生成できます。

Model Features

段階的グループ相対戦略最適化（StepGRPO）

StepGRPO訓練手法を採用し、視覚言語タスクにおけるモデルの性能を最適化します。

Qwen2-VL-2B-Instructベース

Qwen2-VL-2B-Instructを基礎モデルとして、その強力な視覚言語処理能力を継承しています。

Model Capabilities

画像理解

テキスト生成

視覚言語推論

Use Cases

視覚質問応答

画像説明生成

入力画像に基づいて詳細なテキスト説明を生成します。

視覚質問応答

画像内容に関連する質問に回答します。

属性	详情
パイプラインタグ	画像 - テキストからテキスト
ライブラリ名	transformers
モデルタイプ	R1-VL-2B
訓練データ	HuanjinYao/Mulberry-SFT
ベースモデル	Qwen/Qwen2-VL-2B-Instruct

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

R1 VL 2B

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 R1-VL-2B

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

論文

GitHub

ベースモデル

データセット

モデル情報