V

VLM R1 Qwen2.5VL 3B Math 0305

omlabによって開発
Qwen2.5-VL-3B-Instructをベースにした視覚言語モデルで、数学強化とVLM-R1強化学習トレーニングを経て、数学関連の視覚質問応答タスクに特化しています。
ダウンロード数 397
リリース時間 : 3/5/2025

モデル概要

このモデルは視覚理解と言語生成能力を組み合わせ、特に数学問題解決向けに最適化されており、数学式、図表、画像を含む複雑な問題を処理できます。

モデル特徴

数学強化
数学問題解決向けに特別に最適化され、数学式、図表、画像を理解可能
強化学習トレーニング
VLM-R1強化学習手法を用いてトレーニングされ、モデル性能が向上
視覚言語理解
視覚と言語理解能力を統合し、複雑なマルチモーダル入力を処理可能

モデル能力

視覚質問応答
数学問題解答
図表理解
マルチモーダル推論

使用事例

教育
数学問題解答
図表や数式を含む数学問題の理解と解答を学生支援
数学学習効率と理解深度の向上
学術研究
科学論文分析
論文内の数学式や図表の解析
研究者が複雑な内容を迅速に理解する支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase