Q

Qwen2.5 VL 72B Instruct GGUF

unslothによって開発
Qwen2.5-VL-72B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とビデオ分析能力を備え、金融やビジネスなどの複数の分野に適用できます。
ダウンロード数 3,285
リリース時間 : 5/11/2025

モデル概要

Qwen2.5-VL-72B-Instructは先進的な視覚言語モデルで、視覚理解、ビデオ分析、インテリジェントエージェントタスクに長けており、複数の画像とビデオ入力をサポートし、様々なシーンに幅広く応用できます。

モデル特徴

強力な視覚理解能力
一般的な物体を識別するだけでなく、画像内のテキスト、グラフ、アイコン、図形、レイアウトを高度な精度で分析することができます。
インテリジェントエージェント能力
直接視覚エージェントとして機能し、推論を行い、動的にツールを呼び出すことができ、コンピュータや携帯電話の使用能力も備えています。
長時間ビデオ理解
1時間以上のビデオを理解し、関連するビデオクリップを正確に特定してイベントを捕捉することができます。
視覚位置特定サポート
バウンディングボックスまたは点を生成することで、画像内の物体を正確に位置特定し、座標と属性に対して安定したJSON出力を提供することができます。
構造化出力
請求書、フォーム、表などのスキャンデータに対して、その内容の構造化出力をサポートし、金融やビジネスなどの分野での応用に役立ちます。

モデル能力

画像記述
ビデオ分析
視覚位置特定
構造化データ抽出
複数画像推論
バッチ推論
長文処理

使用事例

金融
請求書処理
請求書内の構造化データを自動的に識別して抽出する
効率的かつ正確な財務データ処理
ビジネス
グラフ分析
ビジネスレポート内のグラフデータを自動的に分析する
迅速なビジネス洞察の取得
ビデオ分析
ビデオ内容理解
長時間ビデオの内容を分析し、重要なイベントを抽出する
効率的なビデオ内容検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase