mini-image-captioning開源圖像字幕生成模型 - 輕量免費，CPU運行速度極快！

首頁

Mini Image Captioning

由cnmoro開發

一個基於bert-mini和vit-small的輕量級圖像字幕生成模型，僅重130MB，在CPU上運行速度極快。

圖像生成文本

Transformers

英語開源協議:Apache-2.0 #輕量級圖像字幕 #CPU高效推理 #多模態生成

下載量 292

發布時間 : 1/27/2025

模型概述

該模型結合了視覺編碼器(ViT)和文本解碼器(BERT)的輕量級架構，專門用於為輸入圖像生成描述性文本字幕。

模型特點

輕量高效

模型僅130MB大小，特別優化了CPU推理速度（示例中僅需0.19秒）

雙模態架構

結合視覺Transformer(ViT)和文本Transformer(BERT)的優勢

可調節生成

支持溫度採樣(temperature)、top-p/top-k過濾和束搜索(beam search)等多種生成策略

模型能力

圖像理解

自然語言生成

場景描述

多模態處理

使用案例

內容生成

社交媒體圖像標註

自動為上傳的社交媒體圖片生成描述文字

生成類似'一大群人穿過繁華的城市'的連貫描述

輔助功能

視障輔助

為視障用戶提供圖像內容的語音描述

🚀 迷你圖像字幕生成模型

這是一個基於bert-mini和vit-small的圖像字幕生成模型，模型大小僅 130MB！它在 CPU 上也能實現快速推理。

🚀 快速開始

本模型是一個圖像字幕生成模型，基於bert-mini和vit-small構建，能快速為圖像生成描述。

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # you can use 1 for even faster inference with a small drop in quality
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # you can use 1 for even faster inference with a small drop in quality
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

高級用法

# 若你追求更快的推理速度，可以將 num_beams 設置為 1，這會使推理速度更快，但生成質量會稍有下降。
from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=1 # 你可以使用 1 以實現更快的推理，同時質量會稍有下降
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 詳細文檔

屬性	詳情
基礎模型	google/bert_uncased_L-4_H-256_A-4、WinKawaks/vit-small-patch16-224
任務類型	圖像轉文本
庫名稱	transformers
標籤	vit、bert、vision、caption、captioning、image