MobileCLIP S0開源零樣本圖像分類模型 - 專為移動設備優化使用

首頁

Mobileclip S0

由Xenova開發

MobileCLIP S0 是蘋果 ml-mobileclip 項目的 ONNX 適配版本，專為移動設備優化的零樣本圖像分類模型。

文本生成圖像

Transformers

開源協議:其他 #零樣本圖像分類 #移動端優化 #CLIP架構

下載量 295

發布時間 : 4/24/2024

模型概述

該模型基於 CLIP 架構，支持零樣本圖像分類任務，能夠在不進行微調的情況下對圖像進行分類。

模型特點

移動設備優化

專為移動設備設計，具有高效的推理性能。

零樣本分類

無需微調即可直接對圖像進行分類。

ONNX 兼容

適配 ONNX 格式，便於在不同平臺上部署。

模型能力

零樣本圖像分類

圖像特徵提取

文本-圖像相似度計算

使用案例

圖像分類

動物識別

識別圖像中的動物類別（如貓、狗、鳥等）。

高準確率的分類結果。

內容檢索

圖像搜索

根據文本描述搜索相關圖像。

高效的文本-圖像匹配能力。

🚀 Transformers.js

Transformers.js 是一個支持零樣本圖像分類的庫，它將蘋果的 ml-mobileclip 模型的 ONNX 權重進行適配，以兼容 Transformers.js，可用於圖像特徵提取等任務。

🚀 快速開始

安裝依賴

你可以使用以下命令從 NPM 安裝 Transformers.js JavaScript 庫：

npm i @huggingface/transformers

💻 使用示例

基礎用法

以下是一個執行零樣本圖像分類的示例代碼：

import {
  AutoTokenizer,
  CLIPTextModelWithProjection,
  AutoProcessor,
  CLIPVisionModelWithProjection,
  RawImage,
  dot,
  softmax,
} from '@huggingface/transformers';

const model_id = 'Xenova/mobileclip_s0';

// Load tokenizer and text model
const tokenizer = await AutoTokenizer.from_pretrained(model_id);
const text_model = await CLIPTextModelWithProjection.from_pretrained(model_id);

// Load processor and vision model
const processor = await AutoProcessor.from_pretrained(model_id);
const vision_model = await CLIPVisionModelWithProjection.from_pretrained(model_id);

// Run tokenization
const texts = ['cats', 'dogs', 'birds'];
const text_inputs = tokenizer(texts, { padding: 'max_length', truncation: true });

// Compute text embeddings
const { text_embeds } = await text_model(text_inputs);
const normalized_text_embeds = text_embeds.normalize().tolist();

// Read image and run processor
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/cats.jpg';
const image = await RawImage.read(url);
const image_inputs = await processor(image);

// Compute vision embeddings
const { image_embeds } = await vision_model(image_inputs);
const normalized_image_embeds = image_embeds.normalize().tolist();

// Compute probabilities
const probabilities = normalized_image_embeds.map(
  x => softmax(normalized_text_embeds.map(y => 100 * dot(x, y)))
);
console.log(probabilities); // [[ 0.9989384093386391, 0.001060433633052551, 0.000001157028308360134 ]]