ViT-SO400M-16-SigLIP-i18n-256 Open-source Model - Supports Multilingual Image Classification Tasks

Vit SO400M 16 SigLIP I18n 256

Developed by timm

A SigLIP (Sigmoid Loss for Language-Image Pre-training) model trained on the multilingual WebLI dataset, supporting multilingual image classification tasks.

Text-to-Image

Safetensors

Open Source License:Apache-2.0 #Multilingual Image Classification #Zero-shot Learning #Sigmoid Loss

Downloads 82

Release Time : 10/9/2024

Model Overview

This model is a contrastive image-text model based on the SigLIP architecture, specifically designed for zero-shot image classification tasks with multilingual support.

Model Features

Multilingual Support

Trained with a multilingual tokenizer, supporting image classification tasks in multiple languages.

Sigmoid Loss Function

Utilizes Sigmoid loss for language-image pre-training, enhancing the model's classification performance.

Zero-shot Classification Capability

Capable of classifying images into new categories without specific training.

Model Capabilities

Zero-shot Image Classification

Multilingual Text Understanding

Image Feature Extraction

Use Cases

Image Classification

Multilingual Image Labeling

Classify images using multilingual text labels

Accurately identifies image content and matches multilingual labels

Cross-language Image Search

Search for related images using queries in different languages

Enables cross-language image retrieval capabilities

🚀 ViT-SO400M-16-SigLIP-i18n-256 Model Card

A SigLIP (Sigmoid loss for Language-Image Pre-training) model trained on WebLI in multiple languages (i18n variant) with a multi-lingual tokenizer.

This model has been converted to PyTorch from the original JAX checkpoints in Big Vision. These weights are usable in both OpenCLIP (image + text) and timm (image only).

✨ Features

Trained on multi - language data (i18n variant) with a multi - lingual tokenizer.
Convertible from JAX to PyTorch.
Usable in both OpenCLIP and timm.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

With OpenCLIP

import torch
import torch.nn.functional as F
from urllib.request import urlopen
from PIL import Image
from open_clip import create_model_from_pretrained, get_tokenizer # works on open-clip-torch>=2.27, timm>=1.0.10

model, preprocess = create_model_from_pretrained('hf-hub:timm/ViT-SO400M-16-SigLIP-i18n-256')
tokenizer = get_tokenizer('hf-hub:timm/ViT-SO400M-16-SigLIP-i18n-256')

image = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
image = preprocess(image).unsqueeze(0)

labels_list = ["a dog", "a cat", "a donut", "a beignet"]
text = tokenizer(labels_list, context_length=model.context_length)

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features = F.normalize(image_features, dim=-1)
    text_features = F.normalize(text_features, dim=-1)

    text_probs = torch.sigmoid(image_features @ text_features.T * model.logit_scale.exp() + model.logit_bias)

zipped_list = list(zip(labels_list, [round(p.item(), 3) for p in text_probs[0]]))
print("Label probabilities: ", zipped_list)

With `timm` (for image embeddings)

from urllib.request import urlopen
from PIL import Image
import timm

image = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_so400m_patch14_siglip_256.webli_i18n',
    pretrained=True,
    num_classes=0,
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(image).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

📚 Documentation

Model Details

Property	Details
Model Type	Contrastive Image-Text, Zero-Shot Image Classification
Original	https://github.com/google-research/big_vision
Dataset	WebLI
Papers	Sigmoid loss for language image pre-training

📄 License

This model is licensed under the apache-2.0 license.

📚 Citation

@article{zhai2023sigmoid,
  title={Sigmoid loss for language image pre-training},
  author={Zhai, Xiaohua and Mustafa, Basil and Kolesnikov, Alexander and Beyer, Lucas},
  journal={arXiv preprint arXiv:2303.15343},
  year={2023}
}

@misc{big_vision,
  author = {Beyer, Lucas and Zhai, Xiaohua and Kolesnikov, Alexander},
  title = {Big Vision},
  year = {2022},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/google-research/big_vision}}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご