Qwen2.5 VL 7B Instruct GGUF
Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。
Downloads 8,427
Release Time : 5/11/2025
Model Overview
Qwen2.5-VLはマルチモーダルビジュアル言語モデルで、視覚理解、エージェント機能、構造化出力能力の向上に注力し、金融・ビジネスなど多様なシーンに適用可能です。
Model Features
強化された視覚理解
物体・テキスト・チャート・アイコン・レイアウトを正確に認識し、複雑な視覚コンテンツ分析をサポート
エージェント機能
直接ビジュアルエージェントとして動作可能で、ツールを動的に呼び出し、PC・スマホ操作シーンをサポート
長編動画理解
1時間以上の動画コンテンツを解析可能で、関連シーンを正確に特定するイベント捕捉能力を備える
構造化出力
請求書・表形式データなどに対して構造化出力をサポートし、金融・ビジネスなどの専門シーンに適応
Model Capabilities
画像分析
動画理解
テキスト認識
チャート解析
ビジュアルポジショニング
構造化データ抽出
マルチモーダル推論
Use Cases
ビジネス分析
請求書処理
請求書から構造化データを自動抽出
DocVQAテストセットで95.7%の高精度
教育
チャート理解
教材中のチャート情報を解析
ChartQAテストセットで87.3%の精度
インテリジェントアシスタント
ビジュアルエージェント
エージェントとして画面操作タスクを実行
ScreenSpotテストセットで84.7スコア
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98