mini-image-captioning开源图像字幕生成模型 - 轻量免费，CPU运行速度极快！

首页

Mini Image Captioning

由 cnmoro 开发

一个基于bert-mini和vit-small的轻量级图像字幕生成模型，仅重130MB，在CPU上运行速度极快。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #轻量级图像字幕 #CPU高效推理 #多模态生成

下载量 292

发布时间 : 1/27/2025

模型简介

该模型结合了视觉编码器(ViT)和文本解码器(BERT)的轻量级架构，专门用于为输入图像生成描述性文本字幕。

模型特点

轻量高效

模型仅130MB大小，特别优化了CPU推理速度（示例中仅需0.19秒）

双模态架构

结合视觉Transformer(ViT)和文本Transformer(BERT)的优势

可调节生成

支持温度采样(temperature)、top-p/top-k过滤和束搜索(beam search)等多种生成策略

模型能力

图像理解

自然语言生成

场景描述

多模态处理

使用案例

内容生成

社交媒体图像标注

自动为上传的社交媒体图片生成描述文字

生成类似'一大群人穿过繁华的城市'的连贯描述

辅助功能

视障辅助

为视障用户提供图像内容的语音描述

🚀 迷你图像字幕生成模型

这是一个基于bert-mini和vit-small的图像字幕生成模型，模型大小仅 130MB！它在 CPU 上也能实现快速推理。

🚀 快速开始

本模型是一个图像字幕生成模型，基于bert-mini和vit-small构建，能快速为图像生成描述。

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # you can use 1 for even faster inference with a small drop in quality
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # you can use 1 for even faster inference with a small drop in quality
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

高级用法

# 若你追求更快的推理速度，可以将 num_beams 设置为 1，这会使推理速度更快，但生成质量会稍有下降。
from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/mini-image-captioning"

# load the image captioning model and corresponding tokenizer and image processor
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# preprocess an image
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# generate caption - suggested settings
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=1 # 你可以使用 1 以实现更快的推理，同时质量会稍有下降
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a large group of people walking through a busy city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.19002342224121094 seconds
# on CPU !

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 详细文档

属性	详情
基础模型	google/bert_uncased_L-4_H-256_A-4、WinKawaks/vit-small-patch16-224
任务类型	图像转文本
库名称	transformers
标签	vit、bert、vision、caption、captioning、image