nomic-embed-vision-v1オープンソースビジョン埋め込みモデル - 高性能でマルチモーダルアプリケーション開発を支援

ホーム

Nomic Embed Vision V1

nomic-aiによって開発

高性能ビジョン埋め込みモデル、nomic-embed-text-v1と同じ埋め込み空間を共有し、マルチモーダルアプリケーションをサポート

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル埋め込み #ゼロショット学習 #クロスモーダル検索

ダウンロード数 2,032

リリース時間 : 5/13/2024

モデル概要

nomic-embed-vision-v1はビジョン埋め込みモデルで、画像を埋め込みベクトルに変換し、テキスト埋め込み空間と整合させ、マルチモーダル検索と分析を実現します。

モデル特徴

マルチモーダルサポート

nomic-embed-text-v1と同じ埋め込み空間を共有し、テキストと画像の共同検索と分析をサポート。

高性能

Imagenetゼロショット、Datacomp、MTEBなどのベンチマークで優れた性能を発揮し、OpenAI CLIPやJina CLIPなどのモデルを凌駕。

統合容易

シンプルなAPIとPythonクライアントを提供し、迅速な画像埋め込みベクトル生成を可能にします。

モデル能力

画像特徴抽出

マルチモーダル検索

テキストから画像検索

画像分類

使用事例

情報検索

マルチモーダルRAG

検索拡張生成（RAG）シナリオで、テキストと画像を組み合わせたマルチモーダル検索を実現。

検索精度と関連性を向上。

データ可視化

CC3Mデータセット可視化

Nomic Atlasマップを使用して10万サンプルのCC3Mデータセットを可視化し、ビジョンとテキスト埋め込み空間を比較。

マルチモーダルデータの分布と関係を直感的に表示。

🚀 nomic-embed-vision-v1: 潜在空間の拡張

nomic-embed-vision-v1 は高性能なビジョン埋め込みモデルで、nomic-embed-text-v1 と同じ埋め込み空間を共有しています。

すべての Nomic Embed Text モデルは現在 マルチモーダル 化されています！

名前	Imagenet 0-shot	Datacomp (Avg. 38)	MTEB
`nomic-embed-vision-v1.5`	71.0	56.8	62.28
`nomic-embed-vision-v1`	70.7	56.7	62.39
OpenAI CLIP ViT B/16	68.3	56.3	43.82
Jina CLIP v1	59.1	52.2	60.1

🚀 クイックスタート

✨ ホストされた推論API

Nomic Embed を始める最も簡単な方法は、Nomic Embedding API を使用することです。

nomic Python クライアントを使用して埋め込みを生成するのは簡単です。

from nomic import embed
import numpy as np

output = embed.image(
    images=[
        "image_path_1.jpeg",
        "image_path_2.png",
    ],
    model='nomic-embed-vision-v1',
)

print(output['usage'])
embeddings = np.array(output['embeddings'])
print(embeddings.shape)

詳細については、APIリファレンスを参照してください。

💻 使用例

基本的な使用法

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor
from PIL import Image
import requests

processor = AutoImageProcessor.from_pretrained("nomic-ai/nomic-embed-vision-v1")
vision_model = AutoModel.from_pretrained("nomic-ai/nomic-embed-vision-v1", trust_remote_code=True)

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(image, return_tensors="pt")

img_emb = vision_model(**inputs).last_hidden_state
img_embeddings = F.normalize(img_emb[:, 0], p=2, dim=1)

高度な使用法

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

sentences = ['search_query: What are cute animals to cuddle with?', 'search_query: What do cats look like?']

tokenizer = AutoTokenizer.from_pretrained('nomic-ai/nomic-embed-text-v1')
text_model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1', trust_remote_code=True)
text_model.eval()

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = text_model(**encoded_input)

text_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
text_embeddings = F.normalize(text_embeddings, p=2, dim=1)

print(torch.matmul(img_embeddings, text_embeddings.T))