MobileCLIP S0开源零样本图像分类模型 - 专为移动设备优化使用

首页

Mobileclip S0

由 Xenova 开发

MobileCLIP S0 是苹果 ml-mobileclip 项目的 ONNX 适配版本，专为移动设备优化的零样本图像分类模型。

文本生成图像

Transformers

开源协议:其他 #零样本图像分类 #移动端优化 #CLIP架构

下载量 295

发布时间 : 4/24/2024

模型简介

该模型基于 CLIP 架构，支持零样本图像分类任务，能够在不进行微调的情况下对图像进行分类。

模型特点

移动设备优化

专为移动设备设计，具有高效的推理性能。

零样本分类

无需微调即可直接对图像进行分类。

ONNX 兼容

适配 ONNX 格式，便于在不同平台上部署。

模型能力

零样本图像分类

图像特征提取

文本-图像相似度计算

使用案例

图像分类

动物识别

识别图像中的动物类别（如猫、狗、鸟等）。

高准确率的分类结果。

内容检索

图像搜索

根据文本描述搜索相关图像。

高效的文本-图像匹配能力。

🚀 Transformers.js

Transformers.js 是一个支持零样本图像分类的库，它将苹果的 ml-mobileclip 模型的 ONNX 权重进行适配，以兼容 Transformers.js，可用于图像特征提取等任务。

🚀 快速开始

安装依赖

你可以使用以下命令从 NPM 安装 Transformers.js JavaScript 库：

npm i @huggingface/transformers

💻 使用示例

基础用法

以下是一个执行零样本图像分类的示例代码：

import {
  AutoTokenizer,
  CLIPTextModelWithProjection,
  AutoProcessor,
  CLIPVisionModelWithProjection,
  RawImage,
  dot,
  softmax,
} from '@huggingface/transformers';

const model_id = 'Xenova/mobileclip_s0';

// Load tokenizer and text model
const tokenizer = await AutoTokenizer.from_pretrained(model_id);
const text_model = await CLIPTextModelWithProjection.from_pretrained(model_id);

// Load processor and vision model
const processor = await AutoProcessor.from_pretrained(model_id);
const vision_model = await CLIPVisionModelWithProjection.from_pretrained(model_id);

// Run tokenization
const texts = ['cats', 'dogs', 'birds'];
const text_inputs = tokenizer(texts, { padding: 'max_length', truncation: true });

// Compute text embeddings
const { text_embeds } = await text_model(text_inputs);
const normalized_text_embeds = text_embeds.normalize().tolist();

// Read image and run processor
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/cats.jpg';
const image = await RawImage.read(url);
const image_inputs = await processor(image);

// Compute vision embeddings
const { image_embeds } = await vision_model(image_inputs);
const normalized_image_embeds = image_embeds.normalize().tolist();

// Compute probabilities
const probabilities = normalized_image_embeds.map(
  x => softmax(normalized_text_embeds.map(y => 100 * dot(x, y)))
);
console.log(probabilities); // [[ 0.9989384093386391, 0.001060433633052551, 0.000001157028308360134 ]]