Qwen2.5-VL-3B-Instruct-GPTQ-Int4オープンソースモデル - 画像からテキストへのマルチモーダルタスクを無料でデプロイして解決する

ホーム

Qwen2.5 VL 3B Instruct GPTQ Int4

hflによって開発

これはQwen2.5-VL-3B-InstructモデルのGPTQ-Int4量子化バージョンで、画像テキストからテキストへのマルチモーダルタスクに適しており、中国語と英語をサポートしています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダル理解 #GPTQ量子化 #画像テキストQA

ダウンロード数 1,312

リリース時間 : 2/24/2025

モデル概要

このモデルはQwen2.5-VL-3B-InstructのGPTQ-Int4量子化バージョンで、主に画像とテキストのマルチモーダルタスクを処理するために使用され、画像に関連するテキスト記述や関連する質問に答えることができます。

モデル特徴

効率的な量子化

GPTQ-Int4量子化技術により、モデルのディスク使用量とVRAM要件を大幅に削減しつつ、高い性能を維持します。

マルチモーダルサポート

画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます。

高性能

ChartQAやOCRBenchなどのベンチマークテストで優れた性能を発揮し、オリジナルモデルに近い性能を示します。

モデル能力

画像記述生成

画像QA

マルチモーダルテキスト生成

使用事例

画像理解

画像記述

入力画像の詳細な記述を生成します。

出力例：この画像は「中文LLaMA & Alpaca大模型」と「Chinese LLaMA & Alpaca Large Language Models」という中国語と英語のロゴを表示しています。

画像QA

画像内容に関連する質問に答えます。

🚀 Qwen2.5-VL-3B-Instruct-GPTQ-Int4

このモデルは、gptqmodelライブラリを使用してQwen2.5-VLモデルをGPTQ-Int4で量子化した非公式バージョンです。このモデルは、最新のtransformersライブラリ（非量子化のQwen2.5-VLモデルを実行できる）と互換性があります。

✨ 主な機能

性能

モデル	サイズ (ディスク)	ChartQA (テスト)	OCRBench
Qwen2.5-VL-3B-Instruct	7.1 GB	83.48	791
Qwen2.5-VL-3B-Instruct-AWQ	3.2 GB	82.52	786
Qwen2.5-VL-3B-Instruct-GPTQ-Int4	3.2 GB	82.56	784
Qwen2.5-VL-3B-Instruct-GPTQ-Int3	2.9 GB	76.68	742
Qwen2.5-VL-7B-Instruct	16.0 GB	83.2	846
Qwen2.5-VL-7B-Instruct-AWQ	6.5 GB	79.68	837
Qwen2.5-VL-7B-Instruct-GPTQ-Int4	6.5 GB	81.48	845
Qwen2.5-VL-7B-Instruct-GPTQ-Int3	5.8 GB	78.56	823

注意事項

評価は、lmms-evalをデフォルト設定で使用して行われています。
これらの評価では、GPTQモデルはAWQシリーズよりも計算効率が高く（VRAM使用量が少なく、推論速度が速い）です。
autogptqライブラリはもはやメンテナンスされていないため、gptqmodelライブラリの使用を推奨します。

🚀 クイックスタート

必要なライブラリをインストールします：

pip install git+https://github.com/huggingface/transformers accelerate qwen-vl-utils
pip install git+https://github.com/huggingface/optimum.git
pip install gptqmodel

必要に応じて、以下をインストールする必要があるかもしれません：

pip install tokenicer device_smi logbar

💻 使用例

基本的な使用法

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "hfl/Qwen2.5-VL-3B-Instruct-GPTQ-Int4", 
    attn_implementation="flash_attention_2",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("hfl/Qwen2.5-VL-3B-Instruct-GPTQ-Int4")

messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": "https://raw.githubusercontent.com/ymcui/Chinese-LLaMA-Alpaca-3/refs/heads/main/pics/banner.png"},
        {"type": "text", "text": "请你描述一下这张图片。"},
    ],
}]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text], images=image_inputs, videos=video_inputs,
    padding=True, return_tensors="pt",
).to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(output_text[0])

応答

この画像には、「中文LLaMA & Alpaca大模型」と「Chinese LLaMA & Alpaca Large Language Models」という、中国語と英語のロゴが表示されています。ロゴの左側には、赤いスカーフを巻いたアルパカと白い毛のアルパカの2つのキャラクターがいます。背景は緑の草原と赤い屋根の建物です。ロゴの右側には数字の3と、いくつかの回路パターンがあります。全体的なデザインはシンプルで明瞭で、明るい色と可愛いキャラクターを使って注意を引いています。