Open-source model qhub-blip-image-captioning-finetuned - Supports visual question answering applications for retail product images

Qhub Blip Image Captioning Finetuned

Developed by quadranttechnologies

A fine-tuned version of the BLIP model for the visual question-answering task on retail product images, fine-tuned on a custom dataset annotated with images and product descriptions from online retail platforms.

Image-to-Text

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #Retail product description generation #E-commerce image understanding #Metadata enhancement

Downloads 369

Release Time : 11/7/2024

Model Overview

This model is used for question-answering on product images in the retail industry, supporting applications such as product metadata enhancement and verification of manually generated product descriptions.

Model Features

Optimized for retail scenarios

Specifically fine-tuned for retail product images, capable of accurately identifying and describing various products

Multimodal understanding

Combines visual and language information to achieve image-to-text conversion

Conditional generation

Supports conditional image description generation based on prompt text

Model Capabilities

Image description generation

Product recognition

Visual question-answering

Retail scenario understanding

Use Cases

E-commerce

Product metadata enhancement

Automatically generate descriptive text for product images on e-commerce platforms

For example, accurately identify and describe products such as 'KitchenAid Professional Stand Mixer'

Product description verification

Verify whether the manually written product description matches the image content

Retail analysis

Shelf product recognition

Identify products on retail shelves and generate descriptions

For example, accurately identify products such as 'Bush's White Beans Canned'

🚀 Fine-Tuned Image Captioning Model

This is a fine-tuned model based on BLIP, designed for visual answering on retail product images, offering practical solutions for the retail industry.

✨ Features

This is a fine-tuned version of BLIP for visual answering on retail product images. It is finetuned on a custom dataset with images from an online retail platform and annotated with product descriptions.
This experimental model can be used for answering questions on product images in the retail industry. Use cases include product meta data enrichment and validation of human-generated product descriptions.

📦 Model Information

Property	Details
Base Model	Salesforce/blip-image-captioning-base
Pipeline Tag	image-to-text
Tags	art
License	apache-2.0
Metrics	bleu
Library Name	transformers
Datasets	phiyodr/coco2017

💻 Usage Examples

Basic Usage

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")
model = BlipForConditionalGeneration.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

📚 Sample Model Predictions

Input Image	Prediction
	kitchenaid artisann stand mixer
	a bottle of milk sitting on a counter
	dove sensitive skin lotion
	bread bag with blue plastic handl
	bush ' s best white beans

📄 License

The model is released under the apache-2.0 license.

📚 BibTex and Citation Info

@misc{https://doi.org/10.48550/arxiv.2201.12086,
  doi = {10.48550/ARXIV.2201.12086},
  
  url = {https://arxiv.org/abs/2201.12086},
  
  author = {Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, Steven},
  
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation},
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご