Qwen2.5vl
Qwen2.5-VLは画像テキストからテキストへのマルチモーダルモデルで、視覚理解、ビデオ処理、構造化出力などの分野で著しい向上が見られます。
ダウンロード数 110
リリース時間 : 7/3/2025
モデル概要
Qwen2.5-VLはQwenファミリーの最新メンバーで、より実用的な視覚言語モデルの構築に特化しており、強力な視覚理解能力とインテリジェントエージェント機能を備えています。
モデル特徴
強力な視覚理解能力
一般的な物体の識別に長け、画像内のテキスト、グラフ、アイコン、図形、レイアウトを効率的に分析できます。
インテリジェントエージェント機能
直接視覚エージェントとして機能し、推論を行い動的にツールを呼び出すことができ、コンピューターと携帯電話の使用シーンをサポートします。
長時間ビデオの理解とイベント捕捉
1時間以上のビデオを理解でき、関連するビデオクリップを特定することでイベントを捕捉する機能が追加されています。
多形式の視覚的位置特定
バウンディングボックスまたは点を生成することで画像内の物体を正確に位置特定でき、座標と属性に対して安定したJSON出力を提供できます。
構造化出力のサポート
請求書、フォーム、表などのスキャンデータに対して、その内容の構造化出力をサポートし、金融、商業などの分野で広く応用価値があります。
モデル能力
画像分析
ビデオ理解
テキスト認識
グラフ解析
視覚的位置特定
構造化データ出力
インテリジェントエージェント
マルチモーダル推論
使用事例
金融と商業
請求書処理
請求書情報を自動的に識別して構造化出力する
データ処理効率を向上させる
表解析
スキャンドキュメントから表データを抽出する
手動入力作業を削減する
教育
グラフ理解
数学と科学のグラフを解析する
学習を支援する
ビデオ分析
長時間ビデオの理解
1時間以上のビデオ内容を分析する
イベント捕捉と重要なクリップの位置特定
おすすめAIモデル
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
その他
Colossus Project FluxのNunchaku量子化バージョンで、テキストプロンプトに基づいて高品質な画像を生成することを目的としています。このモデルは、推論効率を最適化しながら、性能損失を最小限に抑えます。
画像生成 英語
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
画像生成テキスト
Transformers 英語

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。
大規模言語モデル
Transformers 英語

L
Mungert
263
2