R1-VL-2Bオープンソース視覚言語推論モデル - Qwen2に基づいて最適化し、視覚言語理解を支援

ホーム

R1 VL 2B

jingyiZ00によって開発

R1-VL-2Bは、段階的グループ相対戦略最適化（StepGRPO）によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #画像テキスト推論 #マルチモーダル命令微調整 #軽量視覚言語

ダウンロード数 272

リリース時間 : 3/18/2025

モデル概要

R1-VL-2Bは視覚言語モデルで、画像テキストからテキストへのタスクに特化しており、画像に関連するテキスト内容を理解し生成できます。

モデル特徴

段階的グループ相対戦略最適化（StepGRPO）

StepGRPO訓練手法を採用し、視覚言語タスクにおけるモデルの性能を最適化します。

Qwen2-VL-2B-Instructベース

Qwen2-VL-2B-Instructを基礎モデルとして、その強力な視覚言語処理能力を継承しています。

モデル能力

画像理解

テキスト生成

視覚言語推論

使用事例

視覚質問応答

画像説明生成

入力画像に基づいて詳細なテキスト説明を生成します。

視覚質問応答

画像内容に関連する質問に回答します。

属性	详情
パイプラインタグ	画像 - テキストからテキスト
ライブラリ名	transformers
モデルタイプ	R1-VL-2B
訓練データ	HuanjinYao/Mulberry-SFT
ベースモデル	Qwen/Qwen2-VL-2B-Instruct

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

R1 VL 2B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 R1-VL-2B

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

論文

GitHub

ベースモデル

データセット

モデル情報