INFRL - Qwen2.5 - VL - 72B - プレビューオープンソースビジュアルランゲージモデル、推論の最適化、ベンチマークテストで優れた性能を発揮

INFRL Qwen2.5 VL 72B Preview Bf16.gguf

GeorgyGUFによって開発

Qwen2.5-VL-72B-Instructを基に最適化された視覚言語モデルで、複数の視覚推論ベンチマークテストで優れた性能を発揮

テキスト生成画像英語オープンソースライセンス:Apache-2.0 #視覚推論強化 #マルチモーダル数学問題解決 #強化学習最適化

ダウンロード数 40

リリース時間 : 5/10/2025

モデル概要

INFRL-Qwen2.5-VL-72Bプレビュー版はQwen2.5-VL-72B-Instructを基に最適化された視覚言語モデルで、特に視覚推論能力が向上しており、MathVision、MathVista、MathVerseなどの視覚推論ベンチマークテストで顕著な成果を示しています。

モデル特徴

強化された視覚推論能力

Qwen2.5-VL-72B-Instructを基に特に視覚推論能力を最適化

複数ベンチマークテストでリード

MathVision、MathVista、MathVerseなど複数の視覚推論ベンチマークテストで最高の性能

オープンソースモデル

オープンソースの視覚言語モデルとして、多くのテストで商用モデルを上回る性能

モデル能力

視覚質問応答

画像理解

数学的推論

マルチモーダル理解

使用事例

教育

数学問題解答

図表や数式を含む数学問題の解析

MathVisionテストセットで41.9点を達成

研究

視覚推論研究

視覚言語モデルの能力評価と研究に使用

MathVistaテスト簡易セットで77.8点を達成

🚀 INFRL-Qwen2.5-VL-72B-Preview

INFRL-Qwen2.5-VL-72B-Preview は、視覚的な推論能力を向上させたモデルです。このモデルは、Qwen2.5-VL-72B-Instruct をベースに開発されており、2025年3月25日現在、様々な視覚推論ベンチマーク（MathVision、MathVista、MathVerse）で最も高い性能を発揮するオープンソースのVLモデルとなっています。

🚀 クイックスタート

このモデルは、視覚的な質問応答タスクに特化しており、Transformerベースのマルチモーダルモデルです。

✨ 主な機能

視覚推論の向上：ベースモデルである Qwen2.5-VL-72B-Instruct をベースに、視覚的な推論能力を向上させています。
高い性能：2025年3月25日現在、様々な視覚推論ベンチマーク（MathVision、MathVista、MathVerse）で最も高い性能を発揮するオープンソースのVLモデルです。

📚 ドキュメント

評価結果

モデル	MathVision (test)	MathVista (testmini)	MathVerse (testmini)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

当チームでは、VLM評価用のコードリポジトリを公開予定です。このコードは、単純なルールベースの報酬を用いたRLトレーニングをサポートし、同時にLLM-Judgeの結果と整合性を持たせることができます。引き続きのご期待をお願いいたします！

開発者

監督者

Wei Chu • Yuan Qi

VLチーム

Haozhe Wang • Zuming Huang

RLチーム

Haozhe Wang • Chao Qu • Long Li

謝辞

RLインフラストラクチャにおけるサポートを提供してくれたJiaran Hao、Liuyihan Songに感謝いたします。

引用

もしこのモデルが役立った場合は、以下のように引用していただけると幸いです。

@misc {INFRL_VL_Preview,
	author       = { {Wang, Haozhe and Huang, Zuming and Qu, Chao and Chu, Wei and Qi, Yuan} },
	title        = { INFRL-Qwen2.5-VL-72B-Preview },
	year         = 2025,
	url          = { https://huggingface.co/infly/INFRL-Qwen2.5-VL-72B-Preview},
	publisher    = { Hugging Face }
}