paligemma_vqav2開源視覺問答模型 - 免費部署精準解答圖像相關問題

首頁

Paligemma Vqav2

由merve開發

該模型是基於google/paligemma-3b-pt-224在VQAv2數據集的一小部分上進行微調的版本，專注於視覺問答任務。

文本生成圖像

Transformers

#視覺問答 #多模態模型 #圖像理解

下載量 168

發布時間 : 5/23/2024

模型概述

這是一個視覺語言模型，專門用於回答基於圖像的問題。它結合了圖像理解和自然語言處理能力，能夠根據圖像內容生成準確的文本回答。

模型特點

視覺問答能力

能夠理解圖像內容並回答相關問題

多模態理解

同時處理視覺和文本信息

小樣本微調

在VQAv2數據集子集上進行了針對性優化

模型能力

圖像理解

視覺問答

多模態推理

使用案例

教育

輔助學習

幫助學生理解教材中的圖像內容

提供準確的圖像相關問題解答

內容分析

圖像內容描述

分析圖像內容並回答相關問題

生成準確的圖像內容描述和解釋

🚀 paligemma_vqav2

paligemma_vqav2 是一個基於預訓練模型微調得到的模型，它基於 google/paligemma-3b-pt-224 在小部分 vq_av2 數據集上進行了微調。該模型可用於特定的視覺問答任務，為圖像相關的問題提供答案。

🚀 快速開始

本模型是 google/paligemma-3b-pt-224 在一小部分 vq_av2 數據集上的微調版本。微調代碼可在此處查看。

💻 使用示例

基礎用法

以下是使用該模型的代碼示例，也可參考推理筆記本。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "merve/paligemma_vqav2"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained("google/paligemma-3b-pt-224")

prompt = "What is behind the cat?"
image_file = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cat.png?download=true"
raw_image = Image.open(requests.get(image_file, stream=True).raw)

inputs = processor(prompt, raw_image.convert("RGB"), return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
# gramophone