nano-image-captioning开源模型 - 40MB轻量体积，CPU上快速生成图像字幕

首页

Nano Image Captioning

由 cnmoro 开发

这是一个基于bert-tiny和vit-tiny的轻量级图像字幕生成模型，仅重40MB，在CPU上运行速度极快。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #轻量级图像字幕 #CPU高效推理 #多场景适用

下载量 184

发布时间 : 1/28/2025

模型简介

该模型结合了视觉编码器（ViT-tiny）和文本解码器（BERT-tiny），能够为输入的图像生成简洁的描述性字幕。

模型特点

轻量高效

模型仅40MB大小，在CPU上也能实现快速推理（约0.075秒/张）

双微型架构

采用vit-tiny-patch16-224作为视觉编码器，bert_uncased_L-2_H-128_A-2作为文本解码器

优化推理设置

提供温度采样、top-p/top-k过滤和束搜索等多种生成策略

模型能力

图像理解

自然语言生成

实时字幕生成

使用案例

无障碍技术

图像描述生成

为视障用户自动生成图像的文字描述

生成简洁准确的图像描述（如：'一群人站在城市中心'）

内容管理

自动图片标注

为图库或社交媒体图片自动生成标签和描述

快速生成可搜索的元数据

🚀 纳米图像字幕生成模型

这是一个基于BERT-Tiny和ViT-Tiny的图像字幕生成模型，仅40MB！它在CPU上也能快速运行，为图像添加描述信息提供了高效解决方案。

🚀 快速开始

此图像字幕生成模型能快速为图像生成描述。以下是使用该模型的步骤：

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/nano-image-captioning"

# 加载图像字幕生成模型以及对应的分词器和图像处理器
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# 预处理图像
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# 生成字幕 - 建议设置
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # 你可以使用1以实现更快的推理，但质量会略有下降
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a group of people are in the middle of a city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.07550048828125 seconds
# on CPU !

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/nano-image-captioning"

# 加载图像字幕生成模型以及对应的分词器和图像处理器
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

# 预处理图像
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg"
image = Image.open(requests.get(url, stream=True).raw)
pixel_values = image_processor(image, return_tensors="pt").pixel_values

start = time.time()

# 生成字幕 - 建议设置
generated_ids = model.generate(
    pixel_values,
    temperature=0.7,
    top_p=0.8,
    top_k=50,
    num_beams=3 # 你可以使用1以实现更快的推理，但质量会略有下降
)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

end = time.time()

print(generated_text)
# a group of people are in the middle of a city.

print(f"Time taken: {end - start} seconds")
# Time taken: 0.07550048828125 seconds
# on CPU !

高级用法

# 如果你需要在多个图像上进行批量处理，可以将图像URL存储在列表中，然后循环处理每个图像。
from transformers import AutoTokenizer, AutoImageProcessor, VisionEncoderDecoderModel
import requests, time
from PIL import Image

model_path = "cnmoro/nano-image-captioning"

# 加载图像字幕生成模型以及对应的分词器和图像处理器
model = VisionEncoderDecoderModel.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
image_processor = AutoImageProcessor.from_pretrained(model_path)

image_urls = [
    "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/New_york_times_square-terabass.jpg/800px-New_york_times_square-terabass.jpg",
    "https://example.com/another_image.jpg"
]

for url in image_urls:
    image = Image.open(requests.get(url, stream=True).raw)
    pixel_values = image_processor(image, return_tensors="pt").pixel_values

    start = time.time()

    # 生成字幕 - 建议设置
    generated_ids = model.generate(
        pixel_values,
        temperature=0.7,
        top_p=0.8,
        top_k=50,
        num_beams=3 # 你可以使用1以实现更快的推理，但质量会略有下降
    )
    generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

    end = time.time()

    print(generated_text)
    print(f"Time taken: {end - start} seconds")

📄 许可证

本项目采用Apache-2.0许可证。

📚 详细文档

属性	详情
基础模型	WinKawaks/vit-tiny-patch16-224、google/bert_uncased_L-2_H-128_A-2
任务类型	图像转文本
库名称	Transformers
标签	ViT、BERT、视觉、字幕、字幕生成、图像