Qwen2.5-VL-instruct-3B-Geoオープンソースビジュアル言語モデル - 無料でビジュアル理解とエージェント機能を強化

ホーム

Qwen2.5 VL Instruct 3B Geo

kxxinDaveによって開発

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル視覚理解 #ビデオイベントローカライゼーション #構造化データ抽出

ダウンロード数 29

リリース時間 : 3/21/2025

モデル概要

Qwen2.5-VLは多機能な視覚言語モデルで、視覚理解、テキスト分析、チャート解析、視覚ローカライゼーションに優れ、構造化出力と長い動画の理解をサポートします。

モデル特徴

強化された視覚理解

画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを効率的に分析できます

エージェント能力

視覚エージェントとして直接推論を行い、動的にツールを呼び出すことができます

長い動画の理解

1時間以上の動画を理解し、関連するクリップを正確に特定できます

視覚ローカライゼーション

境界ボックスまたはポイントを通じて画像内のオブジェクトを正確に特定できます

構造化出力

請求書、表などのデータスキャン画像の構造化出力をサポートします

モデル能力

画像分析

テキスト認識

チャート理解

視覚ローカライゼーション

動画理解

構造化データ抽出

ツール呼び出し

使用事例

ビジネスアプリケーション

請求書処理

請求書から構造化データを自動抽出

財務処理効率の向上

表解析

スキャン文書から表データを抽出

データ入力プロセスの簡素化

教育

チャート理解

科学チャートや数学グラフを説明

学習理解の補助

マルチメディア分析

動画コンテンツ分析

長い動画コンテンツを理解し、キーイベントを特定

動画検索効率の向上

🚀 Qwen2.5-VL-3B-Instruct-Geo

Qwen2.5-VLは、画像や動画の理解、構造化出力など、多様な視覚言語タスクに対応したモデルです。

🚀 クイックスタート

Qwen2.5-VLのコードは最新のHugging face transformersに含まれています。以下のコマンドでソースからビルドすることをお勧めします。

pip install git+https://github.com/huggingface/transformers accelerate

そうしないと、以下のエラーが発生する可能性があります。

KeyError: 'qwen2_5_vl'

様々なタイプの視覚入力をより便利に扱うためのツールキットも提供しています。これにはbase64、URL、画像と動画のインターリーブが含まれます。以下のコマンドでインストールできます。

# 高速な動画読み込みのために `[decord]` 機能を使用することを強くお勧めします。
pip install qwen-vl-utils[decord]==0.0.8

Linuxを使用していない場合は、PyPIからdecordをインストールできない可能性があります。その場合は、pip install qwen-vl-utilsを使用すると、動画処理にtorchvisionが使用されます。ただし、ソースからdecordをインストールすることで、動画読み込み時にdecordを使用できます。

🤗 Transformersを使用したチャット

これは教師付きFTモデルです。以下のように使用できます。

from transformers import AutoTokenizer, AutoProcessor, AutoModelForImageTextToText
from qwen_vl_utils import process_vision_info
from peft import PeftModel

# デフォルト: 利用可能なデバイスにモデルをロード
model = AutoModelForImageTextToText.from_pretrained(
        "kxxinDave/Qwen2.5-VL-instruct-3B-Geo",
        device_map='auto',
        torch_dtype=torch.bfloat16
)
processor = AutoProcessor.from_pretrained("kxxinDave/Qwen2.5-VL-instruct-3B-Geo")

# Qwenは、特に多画像や動画シナリオでは、より高速な処理とメモリ節約のためにflash_attention_2を有効にすることを推奨しています。
# model = AutoModelForImageTextToText.from_pretrained(
#     "kxxinDave/Qwen2.5-VL-instruct-3B-Geo",
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )


# モデルでの画像ごとの視覚トークン数のデフォルト範囲は4 - 16384です。
# パフォーマンスとコストをバランスさせるために、min_pixelsとmax_pixelsを必要に応じて設定できます。例えば、トークン範囲を256 - 1280に設定できます。
# min_pixels = 256*28*28
# max_pixels = 1280*28*28
# processor = AutoProcessor.from_pretrained("kxxinDave/Qwen2.5-VL-instruct-3B-Geo", min_pixels=min_pixels, max_pixels=max_pixels)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# 推論の準備
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# 推論: 出力の生成
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主な機能

Qwen2-VLがリリースされてから過去5か月間、多くの開発者がQwen2-VLのビジョン言語モデルをベースに新しいモデルを構築し、貴重なフィードバックを提供してくれました。この間、私たちはより有用なビジョン言語モデルの構築に注力してきました。今日、私たちはQwenファミリーの最新メンバーであるQwen2.5-VLを紹介することを嬉しく思います。

主な強化点:

視覚的な理解能力: Qwen2.5-VLは、花や鳥、魚、昆虫などの一般的な物体の認識に精通しているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを分析する能力も高いです。
能動的な対応能力: Qwen2.5-VLは、推論し、ツールを動的に操作できる視覚エージェントとして直接機能し、コンピューターや携帯電話の使用が可能です。
長い動画の理解とイベントの捕捉: Qwen2.5-VLは1時間以上の動画を理解でき、今回は関連する動画セグメントを特定することでイベントを捕捉する新しい機能を備えています。
様々な形式での視覚的な位置特定能力: Qwen2.5-VLは、バウンディングボックスや点を生成することで画像内の物体を正確に位置特定でき、座標と属性の安定したJSON出力を提供できます。
構造化出力の生成能力: 請求書、フォーム、表などのスキャンデータに対して、Qwen2.5-VLはその内容の構造化出力をサポートし、金融や商取引などの用途に役立ちます。

モデルアーキテクチャの更新:

動画理解のための動的解像度とフレームレートのトレーニング: 動的解像度を時間次元に拡張し、動的FPSサンプリングを採用することで、モデルが様々なサンプリングレートで動画を理解できるようにしました。それに応じて、時間次元のmRoPEをIDと絶対時間のアライメントで更新し、モデルが時間的なシーケンスと速度を学習し、最終的に特定の瞬間を特定する能力を獲得できるようにしました。

効率的なビジョンエンコーダの最適化: ViTにウィンドウアテンションを戦略的に実装することで、トレーニングと推論の速度を向上させました。ViTアーキテクチャは、SwiGLUとRMSNormでさらに最適化され、Qwen2.5 LLMの構造に合わせられました。

私たちは、30億、70億、720億のパラメータを持つ3つのモデルを用意しています。このリポジトリには、命令調整された3BのQwen2.5-VLモデルが含まれています。詳細については、ブログとGitHubをご覧ください。

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

📚 ドキュメント

引用

もし私たちの成果が役に立った場合は、ぜひ引用してください。

@misc{qwen2.5-VL,
    title = {Qwen2.5-VL},
    url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
    author = {Qwen Team},
    month = {January},
    year = {2025}
}

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2308.12966},
  year={2023}
}