nomic-embed-vision-v1开源视觉嵌入模型 - 高性能助力多模态应用开发

首页

Nomic Embed Vision V1

由 nomic-ai 开发

高性能视觉嵌入模型，与nomic-embed-text-v1共享相同的嵌入空间，支持多模态应用

文本生成图像

Transformers

英语开源协议:Apache-2.0 #多模态嵌入 #零样本学习 #跨模态检索

下载量 2,032

发布时间 : 5/13/2024

模型简介

nomic-embed-vision-v1是一款视觉嵌入模型，能够将图像转换为嵌入向量，并与文本嵌入空间对齐，实现多模态检索和分析。

模型特点

多模态支持

与nomic-embed-text-v1共享相同的嵌入空间，支持文本和图像的联合检索和分析。

高性能

在Imagenet零样本、Datacomp和MTEB等基准测试中表现优异，超越OpenAI CLIP和Jina CLIP等模型。

易于集成

提供简单的API和Python客户端，便于快速生成图像嵌入向量。

模型能力

图像特征提取

多模态检索

文本到图像检索

图像分类

使用案例

信息检索

多模态RAG

在检索增强生成（RAG）场景中，结合文本和图像进行多模态检索。

提升检索准确性和相关性。

数据可视化

CC3M数据集可视化

使用Nomic Atlas地图可视化10万样本的CC3M数据集，比较视觉与文本嵌入空间。

直观展示多模态数据的分布和关系。

🚀 nomic-embed-vision-v1：拓展潜在空间

nomic-embed-vision-v1 是一款高性能的视觉嵌入模型，它与 nomic-embed-text-v1 共享相同的嵌入空间。

现在，所有的 Nomic Embed 文本模型都支持 多模态 了！

名称	ImageNet 零样本准确率	Datacomp（平均 38）	MTEB 指标
`nomic-embed-vision-v1.5`	71.0	56.8	62.28
`nomic-embed-vision-v1`	70.7	56.7	62.39
OpenAI CLIP ViT B/16	68.3	56.3	43.82
Jina CLIP v1	59.1	52.2	60.1

🚀 快速开始

📦 托管推理 API

使用 Nomic Embed 的最简单方法是通过 Nomic 嵌入 API。

使用 nomic Python 客户端生成嵌入非常简单，示例代码如下：

from nomic import embed
import numpy as np

output = embed.image(
    images=[
        "image_path_1.jpeg",
        "image_path_2.png",
    ],
    model='nomic-embed-vision-v1',
)

print(output['usage'])
embeddings = np.array(output['embeddings'])
print(embeddings.shape)

更多信息，请参阅 API 参考。

💻 使用示例

基础用法

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor
from PIL import Image
import requests

processor = AutoImageProcessor.from_pretrained("nomic-ai/nomic-embed-vision-v1")
vision_model = AutoModel.from_pretrained("nomic-ai/nomic-embed-vision-v1", trust_remote_code=True)

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(image, return_tensors="pt")

img_emb = vision_model(**inputs).last_hidden_state
img_embeddings = F.normalize(img_emb[:, 0], p=2, dim=1)

高级用法

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

sentences = ['search_query: What are cute animals to cuddle with?', 'search_query: What do cats look like?']

tokenizer = AutoTokenizer.from_pretrained('nomic-ai/nomic-embed-text-v1')
text_model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1', trust_remote_code=True)
text_model.eval()

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = text_model(**encoded_input)

text_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
text_embeddings = F.normalize(text_embeddings, p=2, dim=1)

print(torch.matmul(img_embeddings, text_embeddings.T))