INFRL-Qwen2.5-VL-72B視覺語言模型開源！多視覺推理測試表現出色

首頁

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

由GeorgyGUF開發

基於Qwen2.5-VL-72B-Instruct改進的視覺語言模型，在多個視覺推理基準測試中表現優異

文本生成圖像英語開源協議:Apache-2.0 #視覺推理強化 #數學視覺問答 #多模態大模型

下載量 230

發布時間 : 5/14/2025

模型概述

增強視覺推理能力的多模態模型，在數學視覺理解任務上達到開源模型最佳性能

模型特點

卓越的視覺推理能力

在MathVision、MathVista和MathVerse等視覺推理基準測試中表現最佳

強化學習優化

採用基於規則獎勵的強化學習方法提升視覺理解能力

多模態理解

能夠同時處理視覺和語言信息，進行復雜的跨模態推理

模型能力

視覺問答

數學問題視覺理解

圖表分析

跨模態推理

使用案例

教育科技

數學題目視覺解答

解析包含圖表和公式的數學題目

在MathVista測試集上達到77.8%準確率

科學研究

科學圖表分析

理解並解釋科研論文中的複雜圖表

🚀 INFRL-Qwen2.5-VL-72B-Preview

INFRL-Qwen2.5-VL-72B-Preview 是一個在視覺推理方面表現出色的模型。它基於 Qwen2.5-VL-72B-Instruct 模型進行改進，截至2025年3月25日，在多個視覺推理基準測試中，它是表現最佳的開源視覺語言模型。

🚀 快速開始

文檔未提供快速開始相關內容，可參考模型倉庫中的使用說明進行操作。

✨ 主要特性

視覺推理增強：在 Qwen2.5-VL-72B-Instruct 模型基礎上，提升了視覺推理能力。
基準測試領先：截至2025年3月25日，在 MathVision、MathVista 和 MathVerse 等多個視覺推理基準測試中，是表現最佳的開源視覺語言模型。

📚 詳細文檔

模型概述

INFRL-Qwen2.5-VL-72B-Preview 在 Qwen2.5-VL-72B-Instruct 模型的基礎上改進了視覺推理能力。
截至2025年3月25日，INFRL-Qwen2.5-VL-72B-Preview 是在多個視覺推理基準測試（MathVision、MathVista、MathVerse）中表現最佳的開源視覺語言模型。

評估

模型	MathVision (測試集)	MathVista (測試迷你集)	MathVerse (測試迷你集)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

團隊將發佈一個用於視覺語言模型評估的代碼倉庫，該倉庫支持基於簡單規則獎勵的強化學習訓練，同時與大語言模型評判結果保持一致，敬請期待！

貢獻者

導師

魏楚 • 齊遠

視覺語言團隊

王浩哲 • 黃祖銘

強化學習團隊

王浩哲 • 曲超 • 李龍

致謝

感謝郝佳然、宋柳含在強化學習基礎設施方面提供的支持。

引用

如果您覺得我們的模型有用，請考慮引用以下內容：

@misc {INFRL_VL_Preview,
	author       = { {Wang, Haozhe and Huang, Zuming and Qu, Chao and Chu, Wei and Qi, Yuan} },
	title        = { INFRL-Qwen2.5-VL-72B-Preview },
	year         = 2025,
	url          = { https://huggingface.co/infly/INFRL-Qwen2.5-VL-72B-Preview},
	publisher    = { Hugging Face }
}