R1-VL-2B Open-source Vision-Language Reasoning Model - Optimized based on Qwen2 to Boost Vision-Language Understanding

R1 VL 2B

Developed by jingyiZ00

R1-VL-2B is a vision-language reasoning model trained through Stepwise Group Relative Policy Optimization (StepGRPO), optimized based on Qwen2-VL-2B-Instruct.

Image-to-Text

Transformers

Open Source License:Apache-2.0 #Image-Text Inference #Multimodal Instruction Fine-Tuning #Lightweight Vision-Language

Downloads 272

Release Time : 3/18/2025

Model Overview

R1-VL-2B is a vision-language model focused on image-text-to-text tasks, capable of understanding and generating text content related to images.

Model Features

Stepwise Group Relative Policy Optimization (StepGRPO)

Adopts the StepGRPO training method to optimize the model's performance in vision-language tasks.

Based on Qwen2-VL-2B-Instruct

Built upon Qwen2-VL-2B-Instruct, inheriting its robust vision-language processing capabilities.

Model Capabilities

Image Understanding

Text Generation

Vision-Language Reasoning

Use Cases

Visual Question Answering

Image Caption Generation

Generates detailed textual descriptions based on input images.

Visual Question Answering

Answers questions related to image content.

Property	Details
Pipeline Tag	image-text-to-text
Library Name	transformers
Base Model	Qwen/Qwen2-VL-2B-Instruct
Training Datasets	HuanjinYao/Mulberry-SFT

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

R1 VL 2B

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 R1-VL-2B

🚀 Quick Start

Paper: https://arxiv.org/pdf/2503.12937

Github: https://github.com/jingyi0000/R1-VL

Base model: https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct

📄 License

📚 Documentation