Q

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

christopherthompson81によって開発
Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。
ダウンロード数 68
リリース時間 : 3/25/2025

モデル概要

Qwen2.5-VL-32B-Instruct はマルチモーダル視覚言語モデルで、画像理解、動画分析、テキスト生成に優れ、特に数学的推論と問題解決能力が強化されています。

モデル特徴

強化された視覚理解能力
一般的な物体を認識するだけでなく、画像内のテキスト、チャート、アイコン、図形、レイアウトを効率的に分析できます。
エージェント能力
視覚エージェントとして直接機能し、推論と動的ツール呼び出しの能力を備えており、コンピュータやスマートフォン操作のシナリオに適しています。
長編動画理解とイベント捕捉
1時間以上の動画を理解でき、関連するクリップを正確に特定してイベントを捕捉する新機能を追加しました。
マルチフォーマット視覚位置特定
境界ボックスやポイントを生成して画像内のオブジェクトを正確に位置付け、座標と属性のJSON形式データを安定して出力できます。
構造化出力生成
請求書スキャン、表などのデータに対して、内容の構造化出力をサポートし、金融、ビジネスなどの分野に適しています。

モデル能力

画像理解
動画分析
テキスト生成
数学的推論
論理的推論
知識質問応答
視覚位置特定
構造化データ抽出

使用事例

ビジネスアプリケーション
請求書処理
請求書内の構造化データを自動認識・抽出
金融・ビジネス文書を効率的に処理
表分析
表の内容を解析・要約
表のキー情報を迅速に取得
教育
数学問題解答
複雑な数学問題を解決し詳細な説明を提供
学習効率と理解深度を向上
マルチメディア分析
動画内容理解
長編動画の内容を分析しキーイベントを特定
動画データを効率的に処理
画像説明生成
画像に対して詳細な説明を生成
画像のアクセシビリティを向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase