開源nomic-embed-vision-v1.5視覺嵌入模型 - 支持多模態應用高性能之選

首頁

Nomic Embed Vision V1.5

由nomic-ai開發

高性能視覺嵌入模型，與nomic-embed-text-v1.5共享相同的嵌入空間，支持多模態應用

文本生成圖像

Transformers

英語開源協議:Apache-2.0 #多模態嵌入 #零樣本學習 #跨模態檢索

下載量 27.85k

發布時間 : 6/1/2024

模型概述

nomic-embed-vision-v1.5是一款高性能視覺嵌入模型，能夠將圖像轉換為嵌入向量，並與文本嵌入空間對齊，實現多模態檢索和分析。

模型特點

多模態支持

與nomic-embed-text-v1.5共享相同的嵌入空間，支持文本和圖像的聯合檢索

高性能

在Imagenet零樣本和Datacomp等基準測試中表現優異，超越同類模型

易於集成

提供簡單的API和transformers集成方式，便於快速部署

模型能力

圖像特徵提取

多模態檢索

文本到圖像搜索

圖像相似度計算

使用案例

信息檢索

多模態RAG

使用文本查詢檢索相關圖像

實現跨模態的高效檢索

數據分析

數據可視化

將圖像和文本嵌入投影到同一空間進行可視化分析

在Atlas平臺上展示10萬樣本CC3M數據集的可視化效果

🚀 nomic-embed-vision-v1.5：拓展潛在空間

nomic-embed-vision-v1.5 是一款高性能的視覺嵌入模型，它與 nomic-embed-text-v1.5 共享相同的嵌入空間。所有 Nomic Embed 文本模型現在都是多模態的！

🚀 快速開始

博客 | 技術報告 | AWS SageMaker | Atlas 嵌入和非結構化數據分析平臺

模型性能對比

名稱	ImageNet零樣本準確率	Datacomp（38個數據集平均）	MTEB
`nomic-embed-vision-v1.5`	71.0	56.8	62.28
`nomic-embed-vision-v1`	70.7	56.7	62.39
OpenAI CLIP ViT B/16	68.3	56.3	43.82
Jina CLIP v1	59.1	52.2	60.1

✨ 主要特性

高性能視覺嵌入模型，與文本嵌入模型共享相同嵌入空間，實現多模態功能。
提供多種使用方式，包括通過API和transformers庫。

📦 安裝指南

文檔中未提及具體安裝步驟，此章節跳過。

💻 使用示例

基礎用法

使用 nomic Python 客戶端生成嵌入：

from nomic import embed
import numpy as np

output = embed.image(
    images=[
        "image_path_1.jpeg",
        "image_path_2.png",
    ],
    model='nomic-embed-vision-v1.5',
)

print(output['usage'])
embeddings = np.array(output['embeddings'])
print(embeddings.shape)

更多信息請參考 API 參考。

高級用法

使用 transformers 庫進行圖像嵌入和多模態檢索：

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor
from PIL import Image
import requests

processor = AutoImageProcessor.from_pretrained("nomic-ai/nomic-embed-vision-v1.5")
vision_model = AutoModel.from_pretrained("nomic-ai/nomic-embed-vision-v1.5", trust_remote_code=True)

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(image, return_tensors="pt")

img_emb = vision_model(**inputs).last_hidden_state
img_embeddings = F.normalize(img_emb[:, 0], p=2, dim=1)

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

sentences = ['search_query: What are cute animals to cuddle with?', 'search_query: What do cats look like?']

tokenizer = AutoTokenizer.from_pretrained('nomic-ai/nomic-embed-text-v1.5')
text_model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True)
text_model.eval()

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = text_model(**encoded_input)

text_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
text_embeddings = F.layer_norm(text_embeddings, normalized_shape=(text_embeddings.shape[1],))
text_embeddings = F.normalize(text_embeddings, p=2, dim=1)

print(torch.matmul(img_embeddings, text_embeddings.T))