nllb-clip-base-siglip开源多语言视觉语言模型

首页

Nllb Clip Base Siglip

由 visheratin 开发

NLLB-CLIP-SigLIP 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像 #多语言零样本分类 #跨模态检索 #低资源语言处理

下载量 478

发布时间 : 11/14/2023

模型简介

该模型结合了NLLB的文本编码能力和SigLIP的图像编码能力，特别擅长处理低资源语言，在跨模态任务中表现出色。

模型特点

多语言支持

支持Flores-200的201种语言，特别擅长处理低资源语言

跨模态能力

结合了文本和图像编码能力，适用于跨模态任务

性能优越

在Crossmodal-3600数据集上设定了最新的技术水平

模型能力

零样本图像分类

多语言文本理解

跨模态检索

使用案例

多语言应用

多语言图像分类

使用不同语言对图像进行分类

在多种语言上表现出色

跨模态检索

图文匹配

在多语言环境下匹配图像和文本

在Crossmodal-3600数据集上表现优异

🚀 NLLB - CLIP - SigLIP模型

NLLB - CLIP - SigLIP模型结合了文本编码器和图像编码器的优势，将模型能力拓展到201种语言，在低资源语言上表现出色，为跨语言图像分类等任务带来了新的解决方案。

🚀 快速开始

NLLB - CLIP - SigLIP模型结合了来自 [NLLB模型](https://huggingface.co/facebook/nllb - 200 - distilled - 600M) 的文本编码器和来自 [SigLIP](https://huggingface.co/timm/ViT - B - 16 - SigLIP - 384) 模型的图像编码器。这使我们能够将模型能力扩展到Flores - 200的201种语言。NLLB - CLIP在 [Crossmodal - 3600](https://google.github.io/crossmodal - 3600/) 数据集上达到了最先进水平，在低资源语言上表现出色。你可以在论文中找到关于该模型的更多详细信息。

此版本比 [标准](https://huggingface.co/visheratin/nllb - clip - base - oc) 版本表现更好。你可以在这里和 [这里](https://github.com/gregor - ge/Babel - ImageNet/blob/main/evaluation_scripts/results_analysis.ipynb) 查看结果。

注意：此模型还有一个 [更好的版本](https://huggingface.co/visheratin/nllb - siglip - mrl - base) 可供使用！

📦 安装指南

此模型已集成到OpenCLIP中，你可以像使用其他模型一样使用它。首先，安装所需的库：

!pip install -U open_clip_torch

💻 使用示例

基础用法

你可以点击下面的按钮在Colab中打开示例代码：

以下是使用该模型的示例代码：

from open_clip import create_model_from_pretrained, get_tokenizer
from PIL import Image
import requests
import torch

model, transform = create_model_from_pretrained("nllb-clip-base-siglip", "v1", device="cuda")

tokenizer = get_tokenizer("nllb-clip-base-siglip")

class_options = ["бабочка", "butterfly", "kat"]
class_langs = ["rus_Cyrl", "eng_Latn", "afr_Latn"]

text_inputs = []
for i in range(len(class_options)):
    tokenizer.set_language(class_langs[i])
    text_inputs.append(tokenizer(class_options[i]))
text_inputs = torch.stack(text_inputs).squeeze(1).to("cuda")

image_path = "https://huggingface.co/spaces/jjourney1125/swin2sr/resolve/main/samples/butterfly.jpg"
image = Image.open(requests.get(image_path, stream=True).raw)

image_inputs = transform(image).unsqueeze(0).to("cuda")

with torch.inference_mode():
    logits_per_image, logits_per_text = model.get_logits(image_inputs, text_inputs)

print(logits_per_image.softmax(dim=-1))

📄 许可证

本模型使用的许可证为 cc - by - nc - 4.0。

🔗 相关信息表格

属性	详情
模型类型	NLLB - CLIP - SigLIP
训练数据	visheratin/laion - coco - nllb
新版本	visheratin/mexma - siglip2
标签	clip
库名称	open_clip
任务类型	zero - shot - image - classification