INFRL-Qwen2.5-VL-72B Open-source Multimodal Vision-Language Model - Outstanding Performance in Visual Reasoning

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

Developed by GeorgyGUF

An improved multimodal vision-language model based on Qwen2.5-VL-72B-Instruct, excelling in multiple visual reasoning benchmarks

Text-to-Image EnglishOpen Source License:Apache-2.0 #Visual Reasoning Enhancement #Multimodal Math Problem Solving #Reinforcement Learning Optimization

Downloads 64

Release Time : 5/10/2025

Model Overview

A multimodal model with enhanced visual reasoning capabilities, achieving state-of-the-art performance among open-source models in mathematical visual understanding tasks

Model Features

Exceptional Visual Reasoning Capabilities

Top performance in visual reasoning benchmarks such as MathVision, MathVista, and MathVerse

Reinforcement Learning Optimization

Utilizes rule-based reward reinforcement learning to enhance model performance

Leader Among Open-source Models

Outperforms commercial models like GPT4o and Gemini in multiple visual reasoning tests

Model Capabilities

Visual Question Answering

Mathematical Problem Visual Understanding

Multimodal Reasoning

Image Content Analysis

Use Cases

EdTech

Visual Math Problem Solving

Solving math problems containing diagrams and formulas

Achieved 77.8% accuracy on the MathVista test set

Research Evaluation

Vision-Language Model Benchmarking

Used to evaluate visual reasoning capabilities of multimodal models

Provides an evaluation framework consistent with LLM-Judge

Property	Details
Base Model	Qwen/Qwen2.5-VL-72B-Instruct
Language	en
License	apache - 2.0
Tags	transformers, multimodal
Pipeline Tag	visual - question - answering

Models	MathVision (test)	MathVista (testmini)	MathVerse (testmini)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 INFRL-Qwen2.5-VL-72B-Preview

🚀 Quick Start

✨ Features

📚 Documentation

Model Information

Evaluation

👥 Contributors

Supervisors

VL Team

RL Team

🙏 Thanks

📄 License

📖 Citation