Q

Qwen2.5 VL 7B Instruct GGUF

Developed by unsloth
Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。
Downloads 8,427
Release Time : 5/11/2025

Model Overview

Qwen2.5-VLはマルチモーダルビジュアル言語モデルで、視覚理解、エージェント機能、構造化出力能力の向上に注力し、金融・ビジネスなど多様なシーンに適用可能です。

Model Features

強化された視覚理解
物体・テキスト・チャート・アイコン・レイアウトを正確に認識し、複雑な視覚コンテンツ分析をサポート
エージェント機能
直接ビジュアルエージェントとして動作可能で、ツールを動的に呼び出し、PC・スマホ操作シーンをサポート
長編動画理解
1時間以上の動画コンテンツを解析可能で、関連シーンを正確に特定するイベント捕捉能力を備える
構造化出力
請求書・表形式データなどに対して構造化出力をサポートし、金融・ビジネスなどの専門シーンに適応

Model Capabilities

画像分析
動画理解
テキスト認識
チャート解析
ビジュアルポジショニング
構造化データ抽出
マルチモーダル推論

Use Cases

ビジネス分析
請求書処理
請求書から構造化データを自動抽出
DocVQAテストセットで95.7%の高精度
教育
チャート理解
教材中のチャート情報を解析
ChartQAテストセットで87.3%の精度
インテリジェントアシスタント
ビジュアルエージェント
エージェントとして画面操作タスクを実行
ScreenSpotテストセットで84.7スコア
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase