INFRL-Qwen2.5-VL-72B開源多模態視覺語言模型

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

由GeorgyGUF開發

基於Qwen2.5-VL-72B-Instruct改進的多模態視覺語言模型，在多個視覺推理基準測試中表現優異

下載量 64

發布時間 : 5/10/2025

模型概述

增強視覺推理能力的多模態模型，在數學視覺理解任務上達到開源模型最佳性能

卓越的視覺推理能力

在MathVision、MathVista和MathVerse等視覺推理基準測試中表現最佳

強化學習優化

採用基於規則獎勵的強化學習方法提升模型性能

開源模型領先者

在多個視覺推理測試中超越GPT4o、Gemini等商業模型

視覺問答

數學問題視覺理解

多模態推理

圖像內容分析

教育科技

數學題目視覺解答

解析包含圖表和公式的數學問題

在MathVista測試集上達到77.8%準確率

研究評估

視覺語言模型基準測試

用於評估多模態模型的視覺推理能力

提供與LLM-Judge一致的評估框架

模型	MathVision (測試集)	MathVista (小型測試集)	MathVerse (小型測試集)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84