Kosmos-2-PokemonCards-trl-merged开源模型 - 精准识别宝可梦卡牌中宝可梦名称

首页

Kosmos 2 PokemonCards Trl Merged

由 Mit1208 开发

这是一个基于微软Kosmos-2模型微调的多模态模型，专门用于识别宝可梦卡牌中的宝可梦名称。

图像生成文本

Transformers

英语#宝可梦卡片识别 #图像到文本生成 #小样本微调

下载量 51

发布时间 : 5/12/2024

模型简介

该模型通过图像到文本的转换能力，能够识别宝可梦卡牌中的宝可梦名称。模型在300个样本上进行了85个周期的微调。

模型特点

多模态能力

结合视觉和语言理解能力，能够从图像中提取文本信息

特定领域优化

专门针对宝可梦卡牌识别进行了微调

轻量级部署

支持在消费级GPU上运行

模型能力

图像到文本转换

特定对象识别

多模态理解

使用案例

游戏辅助

宝可梦卡牌识别

识别宝可梦卡牌中的宝可梦名称

输出宝可梦名称，如'Wartortle'

收藏管理

卡牌分类

帮助收藏者自动分类宝可梦卡牌

🚀 图像转文本模型 - Transformers

本项目基于Transformers库，实现了图像转文本的功能，通过微调模型在宝可梦卡片数据集上进行训练，可用于识别宝可梦卡片中的宝可梦名称。

🚀 快速开始

模型使用示例

from transformers import AutoProcessor, Kosmos2ForConditionalGeneration
import torch
from io import BytesIO
import requests
from PIL import Image

processor = AutoProcessor.from_pretrained("microsoft/kosmos-2-patch14-224")
my_model = Kosmos2ForConditionalGeneration.from_pretrained("Mit1208/Kosmos-2-PokemonCards-trl-merged", device_map="auto",low_cpu_mem_usage=True)

# load image
image_url = "https://images.pokemontcg.io/sm9/24_hires.png"
response = requests.get(image_url)
# Read the image from the response content
image = Image.open(BytesIO(response.content))

prompt = "Pokemon name is"

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda:0")
with torch.no_grad():
    # autoregressively generate completion
    generated_ids = my_model.generate(**inputs, max_new_tokens=30,)
# convert generated token IDs back to strings
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text.split("</image>")[-1].split(" and")[0] + ".")

'''
Output: Pokemon name is Wartortle.
'''