I

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

GeorgyGUFによって開発
Qwen2.5-VL-72B-Instructを基に改良された視覚言語モデルで、複数の視覚推論ベンチマークで優れた性能を発揮
ダウンロード数 230
リリース時間 : 5/14/2025

モデル概要

視覚推論能力を強化したマルチモーダルモデルで、数学的視覚理解タスクにおいてオープンソースモデル最高の性能を達成

モデル特徴

卓越した視覚推論能力
MathVision、MathVista、MathVerseなどの視覚推論ベンチマークで最高のパフォーマンス
強化学習による最適化
ルールベースの報酬を用いた強化学習手法で視覚理解能力を向上
マルチモーダル理解
視覚情報と言語情報を同時に処理し、複雑なクロスモーダル推論が可能

モデル能力

視覚質問応答
数学問題の視覚的理解
グラフ分析
クロスモーダル推論

使用事例

教育技術
数学問題の視覚的解答
グラフや数式を含む数学問題を解析
MathVistaテストセットで77.8%の精度を達成
科学研究
科学グラフ分析
研究論文の複雑なグラフを理解し解釈
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase