モデル概要

Qwen2.5-VL-32B-Instructは、画像分析、テキスト理解、チャート解析、動画理解に優れた、命令調整済みのビジュアル言語モデルで、様々な形式のビジュアルローカライゼーションと構造化出力をサポートします。

モデル特徴

強化されたビジュアル理解能力

画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを効率的に分析できます。

エージェント能力

ビジュアルエージェントとして機能し、ツールを動的に呼び出し、コンピュータやスマートフォンの使用能力を備えています。

長編動画理解

1時間以上の動画を理解し、関連する動画クリップを正確に特定できます。

ビジュアルローカライゼーション

画像内のオブジェクトを正確に特定するためのバウンディングボックスやポイントの生成をサポートし、座標と属性のJSON形式を安定して出力できます。

構造化出力

インボイススキャン、表などのデータの構造化出力をサポートし、金融、ビジネスなどの分野に適しています。

モデル能力

画像分析

テキスト理解

チャート解析

動画理解

ビジュアルローカライゼーション

構造化出力

ツール呼び出し

使用事例

金融

インボイス処理

インボイス内容を自動解析し、構造化データを生成します。

データ処理の効率と正確性を向上させます。

ビジネス

表解析

スキャンされた表から構造化情報を抽出します。

データ入力プロセスを簡素化します。

教育

チャート理解

教育資料内のチャートやグラフィックを解析します。

学習と教育を支援します。

base_model:

Qwen/Qwen2.5-VL-32B-Instruct license: apache-2.0 language:
en pipeline_tag: image-text-to-text tags:
multimodal
unsloth library_name: transformers

Qwen2.5-VL-32B-Instruct

紹介

Qwen2-VLのリリースから過去5ヶ月間、多くの開発者がQwen2-VLの視覚言語モデルを基に新しいモデルを構築し、貴重なフィードバックを提供してくれました。この期間、私たちはより有用な視覚言語モデルの構築に注力してきました。そして今日、Qwenファミリーの最新メンバーであるQwen2.5-VLを紹介できることを嬉しく思います。

主な強化点:

視覚的な理解: Qwen2.5-VLは花鳥風月などの一般的な物体の認識に優れているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析にも高い能力を発揮します。
エージェント機能: Qwen2.5-VLは視覚エージェントとして直接機能し、推論を行いツールを動的に操作できます。コンピュータやスマートフォンの使用が可能です。
長い動画の理解とイベント捕捉: Qwen2.5-VLは1時間以上の動画を理解でき、今回は関連する動画セグメントを特定することでイベントを捕捉する新機能を備えています。
様々な形式での視覚的ローカライゼーション: Qwen2.5-VLはバウンディングボックスやポイントを生成することで画像内のオブジェクトを正確に特定でき、座標や属性の安定したJSON出力を提供します。
構造化された出力の生成: 請求書、フォーム、表などのデータスキャンに対して、Qwen2.5-VLはそれらの内容を構造化して出力し、金融や商業などの用途に役立ちます。

モデルアーキテクチャの更新:

動画理解のための動的解像度とフレームレートトレーニング:

動的FPSサンプリングを採用することで、動的解像度を時間次元に拡張し、モデルが様々なサンプリングレートで動画を理解できるようにしました。これに伴い、mRoPEを時間次元でIDと絶対時間アライメントで更新し、モデルが時間的シーケンスと速度を学習し、最終的に特定の瞬間を特定する能力を獲得できるようにしました。