🚀 圖像轉文本模型 - Transformers
本項目基於Transformers庫,實現了圖像轉文本的功能,通過微調模型在寶可夢卡片數據集上進行訓練,可用於識別寶可夢卡片中的寶可夢名稱。
🚀 快速開始
模型使用示例
from transformers import AutoProcessor, Kosmos2ForConditionalGeneration
import torch
from io import BytesIO
import requests
from PIL import Image
processor = AutoProcessor.from_pretrained("microsoft/kosmos-2-patch14-224")
my_model = Kosmos2ForConditionalGeneration.from_pretrained("Mit1208/Kosmos-2-PokemonCards-trl-merged", device_map="auto",low_cpu_mem_usage=True)
image_url = "https://images.pokemontcg.io/sm9/24_hires.png"
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))
prompt = "Pokemon name is"
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda:0")
with torch.no_grad():
generated_ids = my_model.generate(**inputs, max_new_tokens=30,)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text.split("</image>")[-1].split(" and")[0] + ".")
'''
Output: Pokemon name is Wartortle.
'''
✨ 主要特性
- 基於
microsoft/kosmos-2-patch14-224
模型進行微調。
- 可用於圖像轉文本任務,尤其適用於寶可夢卡片的名稱識別。
📦 安裝指南
文檔未提供具體安裝步驟,可參考transformers
庫的官方安裝指南進行安裝。
📚 詳細文檔
模型詳情
模型描述
- 開發者:[https://huggingface.co/Mit1208]
- 微調基礎模型:[microsoft/kosmos-2-patch14-224]
訓練詳情
訓練詳情可參考:https://github.com/mit1280/fined-tuning/blob/main/Kosmos_2_fine_tune_PokemonCards_trl.ipynb
推理詳情
推理詳情可參考:https://github.com/mit1280/fined-tuning/blob/main/kosmos2_fine_tuned_inference.ipynb
侷限性
此模型使用免費的Colab版本進行微調,訓練時僅使用了300個樣本,共訓練了 85 個輪次。模型經常出現幻覺現象,因此需要進行後處理。另一種解決此問題的方法是更新訓練數據(使用對話數據)和/或更新分詞器的填充標記為分詞器的結束標記。
📄 許可證
本項目採用cc-by-nc-4.0
許可證。
屬性 |
詳情 |
模型類型 |
圖像轉文本模型 |
訓練數據 |
TheFusion21/PokemonCards |