clip - vit - base - patch16開源模型 - 支持圖像與文本跨模態理解，免費可用

首頁

Clip Vit Base Patch16

由Xenova開發

OpenAI開源的CLIP模型，基於Vision Transformer架構，支持圖像與文本的跨模態理解

文本生成圖像

Transformers

#零樣本圖像分類 #多模態嵌入 #跨模態檢索

下載量 32.99k

發布時間 : 5/19/2023

模型概述

基於Vision Transformer架構的多模態模型，能夠同時理解圖像和文本內容，實現零樣本圖像分類、跨模態檢索等任務

模型特點

零樣本學習能力

無需特定任務訓練即可直接執行圖像分類任務

跨模態理解

可同時處理視覺和文本信息，計算圖像-文本相似度

高效視覺編碼

採用16x16分塊的Vision Transformer架構處理圖像輸入

模型能力

零樣本圖像分類

圖像文本匹配

跨模態嵌入計算

視覺內容理解

文本內容理解

使用案例

內容檢索

圖文匹配搜索

根據文本描述搜索相關圖像

智能分類

動態圖像分類

無需預訓練即可對圖像進行自定義類別分類

示例中老虎圖像分類準確率達99.9%

🚀 CLIP-ViT-Base-Patch16與Transformers.js適配項目

本項目將 openai/clip-vit-base-patch16 模型轉換為ONNX權重，以適配Transformers.js庫，方便在Web環境中使用。

🚀 快速開始

安裝依賴

如果你還沒有安裝 Transformers.js JavaScript庫，可以使用以下命令從 NPM 進行安裝：

npm i @xenova/transformers

💻 使用示例

基礎用法

使用`pipeline` API進行零樣本圖像分類

const classifier = await pipeline('zero-shot-image-classification', 'Xenova/clip-vit-base-patch16');
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/tiger.jpg';
const output = await classifier(url, ['tiger', 'horse', 'dog']);
// [
//   { score: 0.9993917942047119, label: 'tiger' },
//   { score: 0.0003519294841680676, label: 'horse' },
//   { score: 0.0002562698791734874, label: 'dog' }
// ]

高級用法

使用`CLIPModel`進行零樣本圖像分類

import { AutoTokenizer, AutoProcessor, CLIPModel, RawImage } from '@xenova/transformers';

// 加載分詞器、處理器和模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/clip-vit-base-patch16');
const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patch16');
const model = await CLIPModel.from_pretrained('Xenova/clip-vit-base-patch16');

// 進行分詞
const texts = ['a photo of a car', 'a photo of a football match'];
const text_inputs = tokenizer(texts, { padding: true, truncation: true });

// 讀取圖像並進行處理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 使用文本和像素輸入運行模型
const output = await model({ ...text_inputs, ...image_inputs });
// {
//   logits_per_image: Tensor {
//     dims: [ 1, 2 ],
//     data: Float32Array(2) [ 18.579734802246094, 24.31830596923828 ],
//   },
//   logits_per_text: Tensor {
//     dims: [ 2, 1 ],
//     data: Float32Array(2) [ 18.579734802246094, 24.31830596923828 ],
//   },
//   text_embeds: Tensor {
//     dims: [ 2, 512 ],
//     data: Float32Array(1024) [ ... ],
//   },
//   image_embeds: Tensor {
//     dims: [ 1, 512 ],
//     data: Float32Array(512) [ ... ],
//   }
// }

使用`CLIPTextModelWithProjection`計算文本嵌入

import { AutoTokenizer, CLIPTextModelWithProjection } from '@xenova/transformers';

// 加載分詞器和文本模型
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/clip-vit-base-patch16');
const text_model = await CLIPTextModelWithProjection.from_pretrained('Xenova/clip-vit-base-patch16');

// 進行分詞
const texts = ['a photo of a car', 'a photo of a football match'];
const text_inputs = tokenizer(texts, { padding: true, truncation: true });

// 計算嵌入
const { text_embeds } = await text_model(text_inputs);
// Tensor {
//   dims: [ 2, 512 ],
//   type: 'float32',
//   data: Float32Array(1024) [ ... ],
//   size: 1024
// }

使用`CLIPVisionModelWithProjection`計算視覺嵌入

import { AutoProcessor, CLIPVisionModelWithProjection, RawImage } from '@xenova/transformers';

// 加載處理器和視覺模型
const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patch16');
const vision_model = await CLIPVisionModelWithProjection.from_pretrained('Xenova/clip-vit-base-patch16');

// 讀取圖像並進行處理
const image = await RawImage.read('https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/football-match.jpg');
const image_inputs = await processor(image);

// 計算嵌入
const { image_embeds } = await vision_model(image_inputs);
// Tensor {
//   dims: [ 1, 512 ],
//   type: 'float32',
//   data: Float32Array(512) [ ... ],
//   size: 512
// }