blip-image-captioning-base-mocha开源图像描述模型 - 缓解幻觉问题精准描述图像

首页

Blip Image Captioning Base Mocha

由 moranyanuka 开发

BLIP基础模型的官方检查点，采用MOCHA强化学习框架在MS-COCO数据集上微调，用于缓解开放词汇描述幻觉问题

图像生成文本

Transformers

开源协议:MIT #抗幻觉图像描述 #强化学习微调 #开放词汇生成

下载量 88

发布时间 : 12/19/2023

模型简介

该模型是基于BLIP架构的图像到文本生成模型，专门用于生成图像描述。通过MOCHA强化学习框架微调，有效减少了描述中的幻觉问题。

模型特点

MOCHA强化学习微调

采用MOCHA框架进行微调，有效缓解开放词汇描述中的幻觉问题

双模式生成

支持条件式和非条件式两种图像描述生成方式

多精度支持

可在CPU、GPU上运行，支持全精度和半精度(float16)模式

模型能力

图像描述生成

条件式文本生成

非条件式文本生成

多语言图像理解

使用案例

内容生成

自动图像标注

为社交媒体或内容管理系统中的图像自动生成描述性文字

生成准确、无幻觉的图像描述

辅助视觉障碍人士

为视觉障碍用户提供图像内容的文字描述

提高可访问性，帮助理解视觉内容

计算机视觉研究

视觉语言模型研究

作为视觉语言任务的基线模型或对比模型

提供经过MOCHA优化的基准性能

🚀 BLIP基础模型的Mocha检查点

本项目是BLIP基础模型的官方检查点，它在MS - COCO数据集上使用MOCHa强化学习框架进行了微调。相关研究成果在论文《Mitigating Open - Vocabulary Caption Hallucinations》中有所介绍。

项目主页

该模型可用于解决图像到文本的转换问题，能有效实现有条件和无条件的图像描述生成，为图像理解和描述提供了强大的工具。

🚀 快速开始

你可以使用此模型进行有条件和无条件的图像描述生成。

💻 使用示例

基础用法

使用PyTorch模型

在CPU上运行模型

点击展开

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained(""moranyanuka/blip-image-captioning-base-mocha"")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

高级用法

在GPU上运行模型

全精度运行

点击展开

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha").to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

半精度（`float16`）运行

点击展开

import torch
import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-base-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-base-mocha", torch_dtype=torch.float16).to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
# >>> a photography of a woman and her dog on the beach

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
>>> a woman sitting on the beach with a dog

📄 许可证

本项目采用MIT许可证。

📚 引用

@misc{benkish2024mitigating,
      title={Mitigating Open-Vocabulary Caption Hallucinations}, 
      author={Assaf Ben-Kish and Moran Yanuka and Morris Alper and Raja Giryes and Hadar Averbuch-Elor},
      year={2024},
      eprint={2312.03631},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}