S

Space Model

Alhdrawiによって開発
Qwen2.5-VL-32B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、マルチモーダルタスク処理をサポートします。
ダウンロード数 58
リリース時間 : 3/31/2025

モデル概要

Qwen2.5-VL-32B-Instructは320億パラメータの視覚言語モデルで、視覚理解、数学的推論、問題解決能力の向上に焦点を当て、画像、動画、テキストのマルチモーダルインタラクションをサポートします。

モデル特徴

強化された視覚理解能力
一般的な物体の認識だけでなく、画像中のテキスト、チャート、アイコン、図形、レイアウトの分析に優れています。
インテリジェントエージェント能力
直接視覚エージェントとして機能し、ツールを動的に呼び出し、コンピュータやスマートフォンの操作をサポートします。
長編動画理解とイベント捕捉
1時間以上の動画を解析でき、関連するクリップを正確に位置特定する新機能を追加。
マルチフォーマット視覚位置特定
境界ボックスや点座標を生成して画像オブジェクトを正確に位置特定し、安定したJSON形式の座標と属性を出力します。
構造化出力
請求書、表などのスキャンデータの構造化出力をサポートし、金融、ビジネスなどのシナリオに適しています。

モデル能力

画像分析
動画理解
テキスト生成
数学的推論
論理的推論
知識質問応答
視覚位置特定
インテリジェントエージェント

使用事例

金融とビジネス
請求書処理
請求書情報を自動認識し構造化出力
DocVQAデータセットで96.4%の高精度
教育
数学問題解答
図表や数式を含む数学問題を解析・解答
MathVistaデータセットスコア74.7
動画分析
長編動画内容理解
1時間以上の動画内容を解析しキーイベントを位置特定
LVBenchスコア49.00
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase