VLM - R1 - Qwen2.5VL - 3B - Math - 0305オープンソースビジュアル言語モデル - 数学的ビジュアル質問応答タスクを高精度に解決

ホーム

VLM R1 Qwen2.5VL 3B Math 0305

omlabによって開発

Qwen2.5-VL-3B-Instructをベースにした視覚言語モデルで、数学強化とVLM-R1強化学習トレーニングを経て、数学関連の視覚質問応答タスクに特化しています。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #数学視覚質問応答 #小規模パラメータマルチモーダル #RL強化VLM

ダウンロード数 397

リリース時間 : 3/5/2025

モデル概要

このモデルは視覚理解と言語生成能力を組み合わせ、特に数学問題解決向けに最適化されており、数学式、図表、画像を含む複雑な問題を処理できます。

モデル特徴

数学強化

数学問題解決向けに特別に最適化され、数学式、図表、画像を理解可能

強化学習トレーニング

VLM-R1強化学習手法を用いてトレーニングされ、モデル性能が向上

視覚言語理解

視覚と言語理解能力を統合し、複雑なマルチモーダル入力を処理可能

モデル能力

視覚質問応答

数学問題解答

図表理解

マルチモーダル推論

使用事例

教育

数学問題解答

図表や数式を含む数学問題の理解と解答を学生支援

数学学習効率と理解深度の向上

学術研究

科学論文分析

論文内の数学式や図表の解析

研究者が複雑な内容を迅速に理解する支援

属性	详情
モデルタイプ	視覚的質問応答モデル
ベースモデル	Qwen/Qwen2.5 - VL - 3B - Instruct
訓練データ	AI4Math/MathVista、AI4Math/MathVerse

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

VLM R1 Qwen2.5VL 3B Math 0305

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Math ehanched Qwen 2.5VL 3B

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

モデル情報

引用情報