INFRL - Qwen2.5 - VL - 72B視覚言語モデルがオープンソースになりました！多視覚推論テストで卓越した結果を収めます。

ホーム

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

GeorgyGUFによって開発

Qwen2.5-VL-72B-Instructを基に改良された視覚言語モデルで、複数の視覚推論ベンチマークで優れた性能を発揮

テキスト生成画像英語オープンソースライセンス:Apache-2.0 #視覚推論強化 #数学的視覚質問応答 #マルチモーダル大規模モデル

ダウンロード数 230

リリース時間 : 5/14/2025

モデル概要

視覚推論能力を強化したマルチモーダルモデルで、数学的視覚理解タスクにおいてオープンソースモデル最高の性能を達成

モデル特徴

卓越した視覚推論能力

MathVision、MathVista、MathVerseなどの視覚推論ベンチマークで最高のパフォーマンス

強化学習による最適化

ルールベースの報酬を用いた強化学習手法で視覚理解能力を向上

マルチモーダル理解

視覚情報と言語情報を同時に処理し、複雑なクロスモーダル推論が可能

モデル能力

視覚質問応答

数学問題の視覚的理解

グラフ分析

クロスモーダル推論

使用事例

教育技術

数学問題の視覚的解答

グラフや数式を含む数学問題を解析

MathVistaテストセットで77.8%の精度を達成

科学研究

科学グラフ分析

研究論文の複雑なグラフを理解し解釈

🚀 INFRL-Qwen2.5-VL-72B-Preview

INFRL-Qwen2.5-VL-72B-Previewは、視覚推論能力を向上させたモデルです。Qwen2.5-VL-72B-Instruct モデルをベースに構築され、2025年3月25日現在、様々な視覚推論ベンチマークで最高の性能を発揮しています。

🚀 クイックスタート

INFRL-Qwen2.5-VL-72B-Previewは、Qwen2.5-VL-72B-Instruct モデルをベースに視覚推論能力を向上させたモデルです。2025年3月25日現在、様々な視覚推論ベンチマーク (MathVision、MathVista、MathVerse) で最高の性能を発揮しています。

✨ 主な機能

視覚推論能力の向上：ベースモデルである Qwen2.5-VL-72B-Instruct を基に、視覚推論性能を向上させています。
ベンチマークでの高い性能：2025年3月25日現在、様々な視覚推論ベンチマークで最高の性能を記録しています。

📚 ドキュメント

評価結果

モデル名	MathVision (test)	MathVista (testmini)	MathVerse (testmini)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

VLM評価用のコードリポジトリをリリース予定です。単純なルールベースの報酬によるRLトレーニングをサポートし、同時にLLM-Judgeの結果と整合性を持たせます。引き続きのご期待をお願いします！

貢献者

監督者

Wei Chu • Yuan Qi

VLチーム

Haozhe Wang • Zuming Huang

RLチーム

Haozhe Wang • Chao Qu • Long Li

謝辞

RLインフラストラクチャにおけるサポートを提供してくれたJiaran Hao、Liuyihan Songに感謝します。

引用

もし当モデルが役に立った場合、以下のように引用を考慮してください。

@misc {INFRL_VL_Preview,
	author       = { {Wang, Haozhe and Huang, Zuming and Qu, Chao and Chu, Wei and Qi, Yuan} },
	title        = { INFRL-Qwen2.5-VL-72B-Preview },
	year         = 2025,
	url          = { https://huggingface.co/infly/INFRL-Qwen2.5-VL-72B-Preview},
	publisher    = { Hugging Face }
}