Qwen2.5-VL-7B-Instruct-GPTQ-Int4オープンソースモデル - 画像とテキストの相互変換などのマルチモーダルタスクをサポート

Home

Qwen2.5 VL 7B Instruct GPTQ Int4

Developed by hfl

Qwen2.5-VL-7B-Instruct-GPTQ-Int4はQwen2.5-VL-7B-Instructモデルを非公式にGPTQ-Int4量子化したバージョンで、画像からテキストへのマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #画像理解 #効率的な推論 #マルチモーダル対話

Downloads 872

Release Time : 2/24/2025

Model Overview

このモデルはマルチモーダルモデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。主に画像理解と生成タスクに使用されます。

Model Features

効率的な量子化

GPTQ-Int4量子化技術を採用し、モデルのディスク使用量とVRAM要件を大幅に削減しながら高い性能を維持します。

マルチモーダルサポート

画像とテキスト入力を同時に処理し、画像理解と生成を実現します。

高性能

ChartQAやOCRBenchなどのベンチマークテストで優れた性能を発揮し、元の非量子化モデルに近い性能を示します。

高い計算効率

AWQ量子化バージョンと比較して、GPTQモデルは推論時のVRAM使用量が少なく、速度が速いです。

Model Capabilities

画像理解

テキスト生成

画像質問応答

チャート分析

OCRテキスト認識

Use Cases

画像質問応答

画像説明生成

入力画像に基づいて詳細な文章説明を生成

画像の内容と詳細を正確に記述できます

チャート分析

チャート内容を解析し関連質問に回答

ChartQAテストで81.48点を獲得

ドキュメント処理

OCR強化

画像中の文字を認識し意味理解を実施

OCRBenchテストで845点を獲得

🚀 Qwen2.5-VL-7B-Instruct-GPTQ-Int4

このモデルは、gptqmodel ライブラリを使用して Qwen2.5-VL モデルをGPTQ-Int4で量子化した非公式なバージョンです。このモデルは、最新の transformers ライブラリ（非量子化のQwen2.5-VLモデルを実行できる）と互換性があります。

✨ 主な機能

性能

モデル	ディスク容量	ChartQA (テスト)	OCRBench
Qwen2.5-VL-3B-Instruct	7.1 GB	83.48	791
Qwen2.5-VL-3B-Instruct-AWQ	3.2 GB	82.52	786
Qwen2.5-VL-3B-Instruct-GPTQ-Int4	3.2 GB	82.56	784
Qwen2.5-VL-3B-Instruct-GPTQ-Int3	2.9 GB	76.68	742
Qwen2.5-VL-7B-Instruct	16.0 GB	83.2	846
Qwen2.5-VL-7B-Instruct-AWQ	6.5 GB	79.68	837
Qwen2.5-VL-7B-Instruct-GPTQ-Int4	6.5 GB	81.48	845
Qwen2.5-VL-7B-Instruct-GPTQ-Int3	5.8 GB	78.56	823

注意事項

評価は、lmms-eval をデフォルト設定で使用して行われています。
これらの評価では、GPTQモデルはAWQシリーズよりも計算効率が高く（VRAM使用量が少なく、推論速度が速い）です。
autogptq ライブラリはメンテナンスされていないため、gptqmodel を使用することをおすすめします。

📦 インストール

必要なライブラリをインストールします：

pip install git+https://github.com/huggingface/transformers accelerate qwen-vl-utils
pip install git+https://github.com/huggingface/optimum.git
pip install gptqmodel

必要に応じて、以下をインストールすることができます：

pip install tokenicer device_smi logbar

💻 使用例

基本的な使用法

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "hfl/Qwen2.5-VL-3B-Instruct-GPTQ-Int4", 
    attn_implementation="flash_attention_2",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained("hfl/Qwen2.5-VL-3B-Instruct-GPTQ-Int4")

messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": "https://raw.githubusercontent.com/ymcui/Chinese-LLaMA-Alpaca-3/refs/heads/main/pics/banner.png"},
        {"type": "text", "text": "请你描述一下这张图片。"},
    ],
}]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text], images=image_inputs, videos=video_inputs,
    padding=True, return_tensors="pt",
).to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(output_text[0])

応答:

この画像には、「中文LLaMA & Alpaca大模型」と「Chinese LLaMA & Alpaca Large Language Models」という中国語と英語のロゴが表示されています。ロゴの左側には、赤いスカーフをしたアルパカと白い毛のアルパカの2つのキャラクターがいます。背景は緑の草原と赤い屋根の建物です。ロゴの右側には数字の3があり、その横にはいくつかの回路パターンがあります。全体的なデザインはシンプルで明瞭で、明るい色と可愛いキャラクターを使って注意を引いています。