Q

Qwen2.5 VL Instruct 3B Geo

kxxinDaveによって開発
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。
ダウンロード数 29
リリース時間 : 3/21/2025

モデル概要

Qwen2.5-VLは多機能な視覚言語モデルで、視覚理解、テキスト分析、チャート解析、視覚ローカライゼーションに優れ、構造化出力と長い動画の理解をサポートします。

モデル特徴

強化された視覚理解
画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを効率的に分析できます
エージェント能力
視覚エージェントとして直接推論を行い、動的にツールを呼び出すことができます
長い動画の理解
1時間以上の動画を理解し、関連するクリップを正確に特定できます
視覚ローカライゼーション
境界ボックスまたはポイントを通じて画像内のオブジェクトを正確に特定できます
構造化出力
請求書、表などのデータスキャン画像の構造化出力をサポートします

モデル能力

画像分析
テキスト認識
チャート理解
視覚ローカライゼーション
動画理解
構造化データ抽出
ツール呼び出し

使用事例

ビジネスアプリケーション
請求書処理
請求書から構造化データを自動抽出
財務処理効率の向上
表解析
スキャン文書から表データを抽出
データ入力プロセスの簡素化
教育
チャート理解
科学チャートや数学グラフを説明
学習理解の補助
マルチメディア分析
動画コンテンツ分析
長い動画コンテンツを理解し、キーイベントを特定
動画検索効率の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase