Qwen2.5-VLオープンソースマルチモーダルモデル - 視覚理解とビデオ処理能力が著しく向上！

ホーム

Qwen2.5vl

NexaAIによって開発

Qwen2.5-VLは画像テキストからテキストへのマルチモーダルモデルで、視覚理解、ビデオ処理、構造化出力などの分野で著しい向上が見られます。

画像生成テキスト英語オープンソースライセンス:Apache-2.0 #マルチモーダル視覚理解 #長時間ビデオのイベント捕捉 #構造化データ出力

ダウンロード数 110

リリース時間 : 7/3/2025

モデル概要

Qwen2.5-VLはQwenファミリーの最新メンバーで、より実用的な視覚言語モデルの構築に特化しており、強力な視覚理解能力とインテリジェントエージェント機能を備えています。

モデル特徴

強力な視覚理解能力

一般的な物体の識別に長け、画像内のテキスト、グラフ、アイコン、図形、レイアウトを効率的に分析できます。

インテリジェントエージェント機能

直接視覚エージェントとして機能し、推論を行い動的にツールを呼び出すことができ、コンピューターと携帯電話の使用シーンをサポートします。

長時間ビデオの理解とイベント捕捉

1時間以上のビデオを理解でき、関連するビデオクリップを特定することでイベントを捕捉する機能が追加されています。

多形式の視覚的位置特定

バウンディングボックスまたは点を生成することで画像内の物体を正確に位置特定でき、座標と属性に対して安定したJSON出力を提供できます。

構造化出力のサポート

請求書、フォーム、表などのスキャンデータに対して、その内容の構造化出力をサポートし、金融、商業などの分野で広く応用価値があります。

モデル能力

画像分析

ビデオ理解

テキスト認識

グラフ解析

視覚的位置特定

構造化データ出力

インテリジェントエージェント

マルチモーダル推論

使用事例

金融と商業

請求書処理

請求書情報を自動的に識別して構造化出力する

データ処理効率を向上させる

表解析

スキャンドキュメントから表データを抽出する

手動入力作業を削減する

教育

グラフ理解

数学と科学のグラフを解析する

学習を支援する

ビデオ分析

長時間ビデオの理解

1時間以上のビデオ内容を分析する

イベント捕捉と重要なクリップの位置特定

🚀 NexaAI/qwen2.5vl

NexaAI/qwen2.5vlは、画像とテキストを入力としてテキストを出力するマルチモーダルモデルです。このモデルは、Qwen2-VLをベースに開発され、多くの機能強化が施されています。

🚀 クイックスタート

nexa-sdkをインストールして、直接実行します。 nexa-sdk CLIでは、以下のコマンドを実行します。

NexaAI/qwen2.5vl

利用可能な量子化モデル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf	Q4_K_M	4.68 GB	false	4ビットモデル。ビジョンにはmmprojが必要です。
mmproj-F16.gguf	f16	1.35 GB	false	ビジョン投影ファイル。必須です。

✨ 主な機能

Qwen2-VLがリリースされてから過去5か月間、多くの開発者がQwen2-VLのビジョン言語モデルをベースに新しいモデルを構築し、貴重なフィードバックを提供してくれました。この間、私たちはより有用なビジョン言語モデルの構築に注力してきました。今日、私たちはQwenファミリーの最新メンバーであるQwen2.5-VLをご紹介することを嬉しく思います。

主要な機能強化点:

視覚的な理解能力: Qwen2.5-VLは、花や鳥、魚、昆虫などの一般的な物体の認識に精通しているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを高度に分析することができます。
エージェント機能: Qwen2.5-VLは、視覚的なエージェントとして直接機能し、推論し、ツールを動的に操作することができ、コンピューターや携帯電話の使用が可能です。
長時間ビデオの理解とイベントの捕捉: Qwen2.5-VLは、1時間以上のビデオを理解することができ、今回は関連するビデオセグメントを特定することでイベントを捕捉する新機能を備えています。
異なる形式での視覚的な位置特定: Qwen2.5-VLは、バウンディングボックスやポイントを生成することで画像内の物体を正確に位置特定し、座標と属性の安定したJSON出力を提供することができます。
構造化出力の生成: 請求書、フォーム、テーブルなどのスキャンデータに対して、Qwen2.5-VLはその内容の構造化出力をサポートし、金融や商業などの分野での利用に役立ちます。

📊 ベンチマーク結果

画像ベンチマーク

ベンチマーク	InternVL2.5-8B	MiniCPM-o 2.6	GPT-4o-mini	Qwen2-VL-7B	Qwen2.5-VL-7B
MMMU_val	56	50.4	60	54.1	58.6
MMMU-Pro_val	34.3	-	37.6	30.5	41.0
DocVQA_test	93	93	-	94.5	95.7
InfoVQA_test	77.6	-	-	76.5	82.6
ChartQA_test	84.8	-	-	83.0	87.3
TextVQA_val	79.1	80.1	-	84.3	84.9
OCRBench	822	852	785	845	864
CC_OCR	57.7			61.6	77.8
MMStar	62.8			60.7	63.9
MMBench-V1.1-En_test	79.4	78.0	76.0	80.7	82.6
MMT-Bench_test	-	-	-	63.7	63.6
MMStar	61.5	57.5	54.8	60.7	63.9
MMVet_GPT-4-Turbo	54.2	60.0	66.9	62.0	67.1
HallBench_avg	45.2	48.1	46.1	50.6	52.9
MathVista_testmini	58.3	60.6	52.4	58.2	68.2
MathVision	-	-	-	16.3	25.07

ビデオベンチマーク

ベンチマーク	Qwen2-VL-7B	Qwen2.5-VL-7B
MVBench	67.0	69.6
PerceptionTest_test	66.9	70.5
Video-MME_{wo/w subs}	63.3/69.0	65.1/71.6
LVBench		45.3
LongVideoBench		54.7
MMBench-Video	1.44	1.79
TempCompass		71.7
MLVU		70.2
CharadesSTA/mIoU	43.6