Model Overview

Qwen2.5-VLはマルチモーダルビジュアル言語モデルで、視覚理解、エージェント機能、構造化出力能力の向上に注力し、金融・ビジネスなど多様なシーンに適用可能です。

Model Features

強化された視覚理解

物体・テキスト・チャート・アイコン・レイアウトを正確に認識し、複雑な視覚コンテンツ分析をサポート

エージェント機能

直接ビジュアルエージェントとして動作可能で、ツールを動的に呼び出し、PC・スマホ操作シーンをサポート

長編動画理解

1時間以上の動画コンテンツを解析可能で、関連シーンを正確に特定するイベント捕捉能力を備える

構造化出力

請求書・表形式データなどに対して構造化出力をサポートし、金融・ビジネスなどの専門シーンに適応

Model Capabilities

画像分析

動画理解

テキスト認識

チャート解析

ビジュアルポジショニング

構造化データ抽出

マルチモーダル推論

Use Cases

ビジネス分析

請求書処理

請求書から構造化データを自動抽出

DocVQAテストセットで95.7%の高精度

教育

チャート理解

教材中のチャート情報を解析

ChartQAテストセットで87.3%の精度

インテリジェントアシスタント

ビジュアルエージェント

エージェントとして画面操作タスクを実行

ScreenSpotテストセットで84.7スコア

base_model:

Qwen/Qwen2.5-VL-7B-Instruct license: apache-2.0 language:
en pipeline_tag: image-text-to-text tags:
multimodal
unsloth library_name: transformers

Qwen2.5-VL-7B-Instruct

はじめに

Qwen2-VLのリリースから5ヶ月が経過し、多くの開発者がQwen2-VLのビジョン言語モデルを基に新たなモデルを構築し、貴重なフィードバックを提供してくれました。この期間、私たちはより有用なビジョン言語モデルの構築に注力してきました。そして今日、Qwenファミリーの最新メンバーであるQwen2.5-VLを紹介できることを嬉しく思います。

主な機能強化:

視覚的な理解: Qwen2.5-VLは花や鳥、魚、昆虫などの一般的な物体の認識に優れているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析にも高い能力を発揮します。
エージェント機能: Qwen2.5-VLは視覚エージェントとして直接機能し、推論を行いツールを動的に操作できます。これにより、コンピュータやスマートフォンの使用が可能です。
長い動画の理解とイベントの捕捉: Qwen2.5-VLは1時間以上の動画を理解でき、今回は関連する動画セグメントを特定することでイベントを捕捉する新たな能力を備えています。
様々な形式での視覚的ローカライゼーション: Qwen2.5-VLは画像内の物体をバウンディングボックスやポイントで正確に特定でき、座標や属性の安定したJSON出力を提供します。
構造化された出力の生成: 請求書、フォーム、テーブルなどのデータスキャンに対して、Qwen2.5-VLはその内容を構造化して出力し、金融や商業などの用途に役立ちます。

モデルアーキテクチャの更新:

動画理解のための動的解像度とフレームレートトレーニング:

動的FPSサンプリングを採用することで、動的解像度を時間次元に拡張し、様々なサンプリングレートで動画を理解できるようにしました。これに伴い、mRoPEを時間次元でIDと絶対時間アライメントを用いて更新し、モデルが時間的なシーケンスと速度を学習し、最終的に特定の瞬間をピンポイントで特定する能力を獲得しました。