blip-image-captioning-base-mocha開源圖像描述模型 - 緩解幻覺問題精準描述圖像

首頁

Blip Image Captioning Base Mocha

由moranyanuka開發

BLIP基礎模型的官方檢查點，採用MOCHA強化學習框架在MS-COCO數據集上微調，用於緩解開放詞彙描述幻覺問題

圖像生成文本

Transformers

開源協議:MIT #抗幻覺圖像描述 #強化學習微調 #開放詞彙生成

下載量 88

發布時間 : 12/19/2023

模型概述

該模型是基於BLIP架構的圖像到文本生成模型，專門用於生成圖像描述。通過MOCHA強化學習框架微調，有效減少了描述中的幻覺問題。

模型特點

MOCHA強化學習微調

採用MOCHA框架進行微調，有效緩解開放詞彙描述中的幻覺問題

雙模式生成

支持條件式和非條件式兩種圖像描述生成方式

多精度支持

可在CPU、GPU上運行，支持全精度和半精度(float16)模式

模型能力

圖像描述生成

條件式文本生成

非條件式文本生成

多語言圖像理解

使用案例

內容生成

自動圖像標註

為社交媒體或內容管理系統中的圖像自動生成描述性文字

生成準確、無幻覺的圖像描述

輔助視覺障礙人士

為視覺障礙用戶提供圖像內容的文字描述

提高可訪問性，幫助理解視覺內容

計算機視覺研究

視覺語言模型研究

作為視覺語言任務的基線模型或對比模型

提供經過MOCHA優化的基準性能

🚀 BLIP基礎模型的Mocha檢查點

本項目是BLIP基礎模型的官方檢查點，它在MS - COCO數據集上使用MOCHa強化學習框架進行了微調。相關研究成果在論文《Mitigating Open - Vocabulary Caption Hallucinations》中有所介紹。

項目主頁

該模型可用於解決圖像到文本的轉換問題，能有效實現有條件和無條件的圖像描述生成，為圖像理解和描述提供了強大的工具。

🚀 快速開始

你可以使用此模型進行有條件和無條件的圖像描述生成。

💻 使用示例

基礎用法

使用PyTorch模型

在CPU上運行模型

點擊展開

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained(""moranyanuka/blip-image-captioning-base-mocha"")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

高級用法

在GPU上運行模型

全精度運行

點擊展開

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha").to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

半精度（`float16`）運行

點擊展開

import torch
import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha", torch_dtype=torch.float16).to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
# >>> a photography of a woman and her dog on the beach

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
>>> a woman sitting on the beach with a dog

📄 許可證

本項目採用MIT許可證。

📚 引用

@misc{benkish2024mitigating,
      title={Mitigating Open-Vocabulary Caption Hallucinations}, 
      author={Assaf Ben-Kish and Moran Yanuka and Morris Alper and Raja Giryes and Hadar Averbuch-Elor},
      year={2024},
      eprint={2312.03631},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}