Q

Qwen2.5 VL 7B Instruct AWQ

Benasdによって開発
Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、強力な画像理解とテキスト生成能力を備えています。
ダウンロード数 226
リリース時間 : 2/7/2025

モデル概要

Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、視覚理解とテキスト生成タスクに特化し、画像分析、テキスト認識、図表理解など多様な機能をサポートします。

モデル特徴

強化された視覚理解能力
一般的な物体の識別だけでなく、画像内のテキスト、図表、アイコン、グラフィック、レイアウト分析に優れています
エージェント機能
視覚エージェントとして直接推論やツールの動的呼び出しが可能で、コンピュータとスマートフォン操作シーンをサポート
長尺動画理解とイベント捕捉
1時間以上の動画コンテンツを解析可能で、関連ビデオクリップを正確に特定するイベント捕捉能力を新たに追加
マルチフォーマット視覚位置特定
境界ボックスまたは座標点を生成して画像物体を正確に位置特定し、座標と属性を含むJSON形式結果を安定して出力
構造化出力生成
請求書スキャン、フォーム、表データなどに対して構造化出力をサポートし、金融・ビジネス分野のアプリケーションに便利

モデル能力

画像理解
テキスト認識
図表分析
視覚位置特定
動画理解
構造化データ抽出
マルチモーダル推論

使用事例

ビジネスアプリケーション
請求書処理
請求書のキー情報を自動認識・抽出
財務処理効率の向上
フォーム分析
様々なビジネスフォームや表を解析
データ入力プロセスの簡素化
インテリジェントアシスタント
視覚エージェント
エージェントとして推論とツール呼び出しを実行
コンピュータとスマートフォン操作シーンをサポート
ビデオ分析
長尺動画理解
1時間以上の動画コンテンツを解析
関連ビデオクリップの正確な位置特定
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase