hindi-image-captioning开源模型 - 免费生成精准印地语图像描述内容

首页

Hindi Image Captioning

由 team-indain-image-caption 开发

这是一个基于VIT编码器和GPT2-Hindi解码器构建的编码器-解码器图像描述生成模型，专门用于生成印地语图像描述。

图像生成文本

Transformers

#印地语图像描述 #ViT-GPT2组合 #多模态生成

下载量 35

发布时间 : 3/2/2022

模型简介

该模型结合了视觉编码器(ViT)和语言解码器(GPT2-Hindi)，能够为输入的图像生成印地语描述文本。这是首次尝试使用ViT+GPT2-Hindi组合来完成图像描述生成任务。

模型特点

印地语图像描述

专门针对印地语优化的图像描述生成能力

ViT+GPT2组合

首次尝试使用ViT视觉编码器和GPT2-Hindi语言解码器的组合架构

社区驱动开发

在HuggingFace社区课程周期间由社区成员合作完成

模型能力

图像理解

印地语文本生成

图像到文本转换

使用案例

辅助技术

视觉辅助

为视障人士提供印地语图像描述

内容生成

社交媒体内容

自动为社交媒体图片生成印地语描述

🚀 印地语图像描述模型

这是一个基于编码器 - 解码器架构的图像描述模型，编码器采用 VIT，解码器使用 GPT2 - 印地语。这是首次尝试将 ViT 和 GPT2 - 印地语模型应用于图像描述任务。我们使用了 Kaggle 上的 Flickr8k 印地语数据集对该模型进行训练。

该模型是在 Huggingface 组织的 HuggingFace 课程社区周期间进行训练的。

🚀 快速开始

如何使用

以下是如何使用此模型为 Flickr8k 数据集中的图像生成描述的示例代码：

import torch
import requests
from PIL import Image
from transformers import ViTFeatureExtractor, AutoTokenizer, \
                         VisionEncoderDecoderModel

if torch.cuda.is_available():
    device = 'cuda'
else:
    device = 'cpu'

url = 'https://shorturl.at/fvxEQ'
image = Image.open(requests.get(url, stream=True).raw)

encoder_checkpoint = 'google/vit-base-patch16-224'
decoder_checkpoint = 'surajp/gpt2-hindi'
model_checkpoint = 'team-indain-image-caption/hindi-image-captioning'
feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

#Inference
sample = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
clean_text = lambda x: x.replace('<|endoftext|>','').split('\n')[0]

caption_ids = model.generate(sample, max_length = 50)[0]
caption_text = clean_text(tokenizer.decode(caption_ids))
print(caption_text)

📦 安装指南

文档未提及安装相关内容，故跳过此章节。

💻 使用示例

基础用法

import torch
import requests
from PIL import Image
from transformers import ViTFeatureExtractor, AutoTokenizer, \
                         VisionEncoderDecoderModel

if torch.cuda.is_available():
    device = 'cuda'
else:
    device = 'cpu'

url = 'https://shorturl.at/fvxEQ'
image = Image.open(requests.get(url, stream=True).raw)

encoder_checkpoint = 'google/vit-base-patch16-224'
decoder_checkpoint = 'surajp/gpt2-hindi'
model_checkpoint = 'team-indain-image-caption/hindi-image-captioning'
feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

#Inference
sample = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
clean_text = lambda x: x.replace('<|endoftext|>','').split('\n')[0]

caption_ids = model.generate(sample, max_length = 50)[0]
caption_text = clean_text(tokenizer.decode(caption_ids))
print(caption_text)