Q

Qwen2.5 VL 72B Instruct Pointer AWQ

PointerHQによって開発
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強化された視覚理解、エージェント能力、構造化出力生成機能を備えています。
ダウンロード数 5,592
リリース時間 : 2/9/2025

モデル概要

Qwen2.5-VLはマルチモーダルな視覚言語モデルで、画像テキストからテキストへのタスクに優れ、視覚的ポジショニング、長時間動画理解、構造化出力生成をサポートします。

モデル特徴

強化された視覚理解能力
一般的な物体を認識するだけでなく、画像中のテキスト、チャート、アイコン、グラフィック、レイアウトを高度に分析できます。
エージェント能力
直接視覚エージェントとして機能し、推論を行い動的にツールを呼び出せ、コンピュータやスマートフォンの操作能力を備えています。
長時間動画理解とイベント捕捉
1時間以上の動画を理解でき、関連する動画クリップを正確に特定してイベントを捕捉する新機能を追加しました。
多様な形式の視覚的ポジショニング
境界ボックスやポイントを生成して画像内のオブジェクトを正確に位置付け、座標と属性のJSON形式を安定して出力できます。
構造化出力生成
請求書、表などのデータスキャン画像に対して、その内容を構造化して出力でき、金融、ビジネスなどの分野での応用に有利です。

モデル能力

画像テキスト理解
視覚的ポジショニング
長時間動画分析
構造化データ抽出
マルチモーダル推論
ツール呼び出し

使用事例

ビジネスと金融
請求書処理
請求書から構造化データを自動抽出
財務処理効率の向上
表分析
スキャン文書内の表データを解析
データ入力プロセスの簡素化
動画分析
長時間動画理解
1時間以上の動画内容を分析
特定のイベントクリップを正確に特定
視覚エージェント
コンピュータ操作
視覚理解を通じてコンピュータ操作を指導
ワークフローの自動化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase