開源SigLIP模型 - 免費部署用於零樣本圖像分類任務！

首頁

Siglip Base Patch16 224

由Xenova開發

SigLIP是一種基於視覺-語言預訓練的模型，適用於零樣本圖像分類任務。

文本生成圖像

Transformers

#零樣本圖像分類 #多模態嵌入 #ONNX兼容

下載量 182

發布時間 : 12/23/2023

模型概述

SigLIP是一種結合視覺和語言信息的預訓練模型，主要用於零樣本圖像分類任務，能夠根據文本描述對圖像進行分類。

模型特點

零樣本圖像分類

無需訓練即可根據文本描述對圖像進行分類。

視覺-語言預訓練

結合視覺和語言信息進行預訓練，提升模型的多模態理解能力。

ONNX兼容

支持ONNX格式，便於在Web端部署和使用。

模型能力

零樣本圖像分類

文本嵌入向量計算

視覺嵌入向量計算

使用案例

圖像分類

動物識別

識別圖像中的動物類型，如貓、狗等。

能夠準確識別圖像中的動物類型。

多模態應用

圖像-文本匹配

將圖像和文本描述進行匹配，用於檢索或分類。

能夠有效匹配圖像和文本描述。

🚀 Siglip-base-patch16-224模型適配Transformers.js

本項目將 google/siglip-base-patch16-224 模型轉換為ONNX權重，以適配 Transformers.js 庫，可用於零樣本圖像分類等任務。

🚀 快速開始

本模型基於 google/siglip-base-patch16-224，使用 Transformers.js 庫實現零樣本圖像分類。

📦 安裝指南

如果你還沒有安裝 Transformers.js JavaScript 庫，可以使用以下命令從 NPM 進行安裝：

npm i @xenova/transformers

💻 使用示例

基礎用法

零樣本圖像分類

使用 Xenova/siglip-base-patch16-224 進行零樣本圖像分類：

import { pipeline } from '@xenova/transformers';

const classifier = await pipeline('zero-shot-image-classification', 'Xenova/siglip-base-patch16-224');
const url = 'http://images.cocodataset.org/val2017/000000039769.jpg';
const output = await classifier(url, ['2 cats', '2 dogs'], {
    hypothesis_template: 'a photo of {}',
});
console.log(output);
// [
//   { score: 0.16770583391189575, label: '2 cats' },
//   { score: 0.000022096000975579955, label: '2 dogs' }
// ]

高級用法

計算文本嵌入

使用 SiglipTextModel 計算文本嵌入：

import { AutoTokenizer, SiglipTextModel } from '@xenova/transformers';

// 加載分詞器和文本模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/siglip-base-patch16-224');
const text_model = await SiglipTextModel.from_pretrained('Xenova/siglip-base-patch16-224');

// 進行分詞
const texts = ['a photo of 2 cats', 'a photo of 2 dogs'];
const text_inputs = tokenizer(texts, { padding: 'max_length', truncation: true });

// 計算嵌入
const { pooler_output } = await text_model(text_inputs);
// Tensor {
//   dims: [ 2, 768 ],
//   type: 'float32',
//   data: Float32Array(1536) [ ... ],
//   size: 1536
// }

計算視覺嵌入

使用 SiglipVisionModel 計算視覺嵌入：

import { AutoProcessor, SiglipVisionModel, RawImage} from '@xenova/transformers';

// 加載處理器和視覺模型
const processor = await AutoProcessor.from_pretrained('Xenova/siglip-base-patch16-224');
const vision_model = await SiglipVisionModel.from_pretrained('Xenova/siglip-base-patch16-224');

// 讀取圖像並進行處理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 計算嵌入
const { pooler_output } = await vision_model(image_inputs);
// Tensor {
//   dims: [ 1, 768 ],
//   type: 'float32',
//   data: Float32Array(768) [ ... ],
//   size: 768
// }