开源MobileCLIP S2轻量级模型 - 高效完成图像特征提取与零样本分类

首页

Mobileclip S2

由 Xenova 开发

MobileCLIP S2 是一个轻量级的视觉-语言模型，专注于图像特征提取和零样本图像分类任务。

文本生成图像

Transformers

开源协议:其他 #零样本图像分类 #移动端优化 #多标签识别

下载量 86

发布时间 : 4/24/2024

模型简介

MobileCLIP S2 是一个高效的视觉-语言模型，支持图像特征提取和零样本图像分类。它基于 CLIP 架构，但经过优化以适应移动设备部署。

模型特点

轻量级设计

专为移动设备优化，具有较小的模型尺寸和高效的计算性能。

零样本分类

无需特定训练即可对新类别进行图像分类。

ONNX 兼容性

提供 ONNX 格式权重，便于在不同平台上部署。

模型能力

图像特征提取

零样本图像分类

跨模态检索

使用案例

图像分类

动物识别

识别图像中的动物类别（如猫、狗、鸟等）

高准确率的零样本分类能力

内容检索

基于文本的图像搜索

使用文本描述检索相关图像

高效的跨模态检索能力

🚀 transformers.js

transformers.js 是一个与 ONNX 权重兼容的库，基于 apple/ml-mobileclip 项目，可用于零样本图像分类等任务，为图像特征提取等工作提供支持。

🚀 快速开始

安装

若你还未安装 Transformers.js JavaScript 库，可以通过以下命令从 NPM 进行安装：

npm i @huggingface/transformers

💻 使用示例

基础用法

以下是一个使用 transformers.js 执行零样本图像分类的示例：

import {
  AutoTokenizer,
  CLIPTextModelWithProjection,
  AutoProcessor,
  CLIPVisionModelWithProjection,
  RawImage,
  dot,
  softmax,
} from '@huggingface/transformers';

const model_id = 'Xenova/mobileclip_s2';

// Load tokenizer and text model
const tokenizer = await AutoTokenizer.from_pretrained(model_id);
const text_model = await CLIPTextModelWithProjection.from_pretrained(model_id);

// Load processor and vision model
const processor = await AutoProcessor.from_pretrained(model_id);
const vision_model = await CLIPVisionModelWithProjection.from_pretrained(model_id);

// Run tokenization
const texts = ['cats', 'dogs', 'birds'];
const text_inputs = tokenizer(texts, { padding: 'max_length', truncation: true });

// Compute text embeddings
const { text_embeds } = await text_model(text_inputs);
const normalized_text_embeds = text_embeds.normalize().tolist();

// Read image and run processor
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/cats.jpg';
const image = await RawImage.read(url);
const image_inputs = await processor(image);

// Compute vision embeddings
const { image_embeds } = await vision_model(image_inputs);
const normalized_image_embeds = image_embeds.normalize().tolist();

// Compute probabilities
const probabilities = normalized_image_embeds.map(
  x => softmax(normalized_text_embeds.map(y => 100 * dot(x, y)))
);
console.log(probabilities); // [[ 0.9999973851268408, 0.000002399646544186113, 2.1522661499262862e-7 ]]