Llama-3.2-11B-Vision-Instruct-nf4開源模型 - 支持免費圖像理解與文本生成

首頁

Llama 3.2 11B Vision Instruct Nf4

由SeanScripts開發

基於meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本，支持圖像理解和文本生成任務

圖像生成文本

Transformers

#4位量化視覺模型 #圖像描述生成 #高效推理

下載量 658

發布時間 : 9/25/2024

模型概述

這是一個多模態模型，能夠理解圖像內容並生成相關文本描述。通過NF4量化技術減小模型體積，適合在資源有限的環境中部署。

模型特點

4位量化技術

使用NF4量化技術將模型壓縮至4位精度，顯著減少內存佔用

多模態理解

能夠同時處理圖像和文本輸入，理解圖像內容並生成相關描述

高效推理

量化後的模型在保持較好性能的同時提高了推理速度

模型能力

圖像內容理解

圖像描述生成

多模態對話

視覺問答

使用案例

內容生成

自動圖像標註

為圖像生成描述性文本，可用於內容管理系統

生成準確、流暢的圖像描述

輔助工具

視障人士輔助

將圖像內容轉換為語音描述

幫助視障人士理解視覺內容

🚀 Llama-3.2-11B-Vision-Instruct-nf4模型

本項目基於meta-llama/Llama-3.2-11B-Vision-Instruct模型轉換而來，使用了BitsAndBytes庫進行NF4（4位）量化，未使用雙重量化。它可用於圖像文本到文本的轉換任務，能為圖像生成描述性文字。

🚀 快速開始

本模型由 meta-llama/Llama-3.2-11B-Vision-Instruct 轉換而來，使用了 BitsAndBytes 進行 NF4（4 位）量化，不使用雙重量化。加載該模型需要 bitsandbytes 庫。

📦 安裝指南

加載此模型需要安裝 bitsandbytes 庫，你可以使用以下命令進行安裝：

pip install bitsandbytes

💻 使用示例

基礎用法

以下是一個圖像描述生成的示例代碼：

from transformers import MllamaForConditionalGeneration, AutoProcessor, BitsAndBytesConfig
from PIL import Image
import time

# Load model
model_id = "SeanScripts/Llama-3.2-11B-Vision-Instruct-nf4"
model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    use_safetensors=True,
    device_map="cuda:0"
)
# Load tokenizer
processor = AutoProcessor.from_pretrained(model_id)

# Caption a local image (could use a more specific prompt)
IMAGE = Image.open("test.png").convert("RGB")
PROMPT = """<|begin_of_text|><|start_header_id|>user<|end_header_id|>
Caption this image:
<|image|><|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""

inputs = processor(IMAGE, PROMPT, return_tensors="pt").to(model.device)
prompt_tokens = len(inputs['input_ids'][0])
print(f"Prompt tokens: {prompt_tokens}")

t0 = time.time()
generate_ids = model.generate(**inputs, max_new_tokens=256)
t1 = time.time()
total_time = t1 - t0
generated_tokens = len(generate_ids[0]) - prompt_tokens
time_per_token = generated_tokens/total_time
print(f"Generated {generated_tokens} tokens in {total_time:.3f} s ({time_per_token:.3f} tok/s)")

output = processor.decode(generate_ids[0][prompt_tokens:]).replace('<|eot_id|>', '')
print(output)