Snowflake Arctic M Long開源句嵌入模型 - 免費實現句子相似度與特徵提取

首頁

Snowflake Arctic Embed M Long

由Snowflake開發

Snowflake Arctic M Long 是一個基於 sentence-transformers 的句子嵌入模型，專注於句子相似度和特徵提取任務。

文本嵌入

Transformers

開源協議:Apache-2.0 #句子相似度計算 #多任務文本嵌入 #高精度語義匹配

下載量 23.79k

發布時間 : 4/12/2024

模型概述

該模型主要用於句子相似度計算和特徵提取，支持多種自然語言處理任務，如分類、聚類、檢索和重排序等。

模型特點

高性能句子嵌入

在多種任務（如分類、檢索、聚類）中表現出色，提供高質量的句子嵌入表示。

多任務支持

支持多種自然語言處理任務，包括句子相似度、分類、聚類和檢索等。

廣泛的數據集評估

在多個公開數據集（如 MTEB）上進行了全面評估，表現優異。

模型能力

句子相似度計算

特徵提取

文本分類

文本聚類

信息檢索

重排序

使用案例

電子商務

商品評論分類

對亞馬遜商品評論進行情感分類，區分正面和負面評價。

在 MTEB AmazonPolarityClassification 數據集上準確率達到 78.74%。

問答系統

問答檢索

在問答社區（如 AskUbuntu）中檢索相似問題。

在 MTEB AskUbuntuDupQuestions 數據集上 MAP 達到 61.36%。

學術研究

論文聚類

對 arXiv 和 bioRxiv 上的學術論文進行主題聚類。

在 MTEB ArxivClusteringP2P 數據集上 V-measure 達到 45.56%。

🚀 Snowflake Arctic-Embed-M-Long

Snowflake Arctic-Embed-M-Long 是一套文本嵌入模型，專注於創建針對性能優化的高質量檢索模型。該模型在 MTEB/BEIR 排行榜上各尺寸變體均達到了最先進的性能，可用於商業用途。

🚀 快速開始

使用 Sentence Transformers

你可以使用 sentence-transformers 包來使用 snowflake-arctic-embed 模型，示例代碼如下：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Snowflake/snowflake-arctic-embed-m-long", trust_remote_code=True)

queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

scores = query_embeddings @ document_embeddings.T
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

運行上述代碼，輸出結果如下：

Query: what is snowflake?
0.46484852 The Data Cloud!
0.3758855 Mexico City of Course!
Query: Where can I get the best tacos?
0.42407742 Mexico City of Course!
0.36740506 The Data Cloud!

使用 Huggingface transformers

你可以使用 transformers 包來使用 snowflake-arctic-embed 模型，示例如下。為獲得最佳檢索質量，請使用 CLS 標記嵌入每個文本部分，並使用以下查詢前綴（僅用於查詢）：

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Snowflake/snowflake-arctic-embed-m-long')
model = AutoModel.from_pretrained('Snowflake/snowflake-arctic-embed-m-long', trust_remote_code=True, add_pooling_layer=False, safe_serialization=True)
model.eval()

query_prefix = 'Represent this sentence for searching relevant passages: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=512)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=512)

# Compute token embeddings
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# normalize embeddings
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    #Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

如果你使用的是支持超過 2048 個標記的長上下文模型，請按以下方式初始化模型，這將使用 RPE 支持最多 8192 個標記：

model = AutoModel.from_pretrained('Snowflake/snowflake-arctic-embed-m-long', trust_remote_code=True, safe_serialization=True, rotary_scaling_factor=2)

使用 Transformers.js

如果你還沒有安裝 Transformers.js JavaScript 庫，可以通過以下命令從 NPM 進行安裝：

npm i @xenova/transformers

然後，你可以使用該模型計算嵌入，示例如下：

import { pipeline, dot } from '@xenova/transformers';

// Create feature extraction pipeline
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-m-long', {
    quantized: false, // Comment out this line to use the quantized version
});

// Generate sentence embeddings
const sentences = [
    'Represent this sentence for searching relevant passages: Where can I get the best tacos?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// Compute similarity scores
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.36740492125676116, 0.42407774292046635]

✨ 主要特性

高性能檢索：snowflake-arctic-embedding 模型在 MTEB/BEIR 排行榜上各尺寸變體均達到了最先進的檢索性能。
多模型選擇：提供了不同尺寸的模型，包括 snowflake-arctic-embed-xs、snowflake-arctic-embed-s、snowflake-arctic-embed-m、snowflake-arctic-embed-m-long 和 snowflake-arctic-embed-l，可以滿足不同的性能和精度需求。
長上下文支持：snowflake-arctic-embed-m-long 模型基於 nomic-ai/nomic-embed-text-v1-unsupervised 模型，無需使用 RPE 即可支持最多 2048 個標記，使用 RPE 時可擴展到 8192 個標記。

📦 模型介紹

snowflake-arctic-embed 是一套文本嵌入模型，專注於創建針對性能優化的高質量檢索模型。

snowflake-arctic-embedding 模型在 MTEB/BEIR 排行榜上各尺寸變體均達到了最先進的性能。評估使用這些腳本進行。如下所示，每個模型尺寸類別與其他頂級模型相比，均實現了最先進的檢索準確率。

這些模型通過利用現有的開源文本表示模型（如 bert-base-uncased）進行訓練，並在多階段管道中進行訓練，以優化其檢索性能。首先，使用大量查詢 - 文檔對進行訓練，其中負樣本來自批次內，預訓練使用了約 4 億個公共數據集和專有網絡搜索數據混合樣本。預訓練後，在較小的數據集（約 100 萬個樣本）上進行長時間訓練，進一步優化模型，該數據集包含從困難有害挖掘中得出的查詢、正文檔和負文檔三元組。負樣本的挖掘和數據整理對於檢索準確性至關重要。詳細的技術報告可在此處找到。

模型性能對比

各尺寸模型在 MTEB 檢索得分（NDCG @ 10）對比

模型名稱	MTEB 檢索得分（NDCG @ 10）	參數數量（百萬）	嵌入維度
snowflake-arctic-embed-xs	50.15	22	384
snowflake-arctic-embed-s	51.98	33	384
snowflake-arctic-embed-m	54.90	110	768
snowflake-arctic-embed-m-long	54.83	137	768
snowflake-arctic-embed-l	55.98	335	1024

與其他閉源嵌入模型對比

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-l	55.98
Google-gecko-text-embedding	55.7
text-embedding-3-large	55.44
Cohere-embed-english-v3.0	55.00
bge-large-en-v1.5	54.29

各模型詳細介紹

snowflake-arctic-embed-xs

這個小型模型功能強大。基於 all-MiniLM-L6-v2 模型，僅具有 2200 萬個參數和 384 維，該模型可以滿足最嚴格的延遲/TCO 預算。儘管尺寸較小，但其檢索準確性接近具有 1 億個參數的模型。

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-xs	50.15
GIST-all-MiniLM-L6-v2	45.12
gte-tiny	44.92
all-MiniLM-L6-v2	41.95
bge-micro-v2	42.56

snowflake-arctic-embed-s

基於 intfloat/e5-small-unsupervised 模型，這個小模型在小尺寸的情況下沒有犧牲檢索準確性。僅具有 3300 萬個參數和 384 維，該模型可以輕鬆擴展到大型數據集。

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-s	51.98
bge-small-en-v1.5	51.68
Cohere-embed-english-light-v3.0	51.34
text-embedding-3-small	51.08
e5-small-v2	49.04

snowflake-arctic-embed-m

基於 intfloat/e5-base-unsupervised 模型，這個中等模型是主力模型，在不降低推理速度的情況下提供了最佳的檢索性能。

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-m	54.90
bge-base-en-v1.5	53.25
nomic-embed-text-v1.5	53.25
GIST-Embedding-v0	52.31
gte-base	52.31

snowflake-arctic-embed-m-long

基於 nomic-ai/nomic-embed-text-v1-unsupervised 模型，這個中等尺寸模型的長上下文變體非常適合受其他模型常規 512 個標記上下文限制的工作負載。無需使用 RPE，該模型支持最多 2048 個標記，使用 RPE 時可擴展到 8192 個標記。

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-m-long	54.83
nomic-embed-text-v1.5	53.01
nomic-embed-text-v1	52.81

snowflake-arctic-embed-l

基於 intfloat/e5-large-unsupervised 模型，這個大型模型可以直接替代閉源 API，並提供最準確的檢索體驗。

模型名稱	MTEB 檢索得分（NDCG @ 10）
snowflake-arctic-embed-l	55.98
UAE-Large-V1	54.66
bge-large-en-v1.5	54.29
mxbai-embed-large-v1	54.39
e5-Large-v2	50.56

📚 常見問題

待補充

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Snowflake/snowflake-arctic-embed-m-long", trust_remote_code=True)

queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

scores = query_embeddings @ document_embeddings.T
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

高級用法

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Snowflake/snowflake-arctic-embed-m-long')
model = AutoModel.from_pretrained('Snowflake/snowflake-arctic-embed-m-long', trust_remote_code=True, add_pooling_layer=False, safe_serialization=True)
model.eval()

query_prefix = 'Represent this sentence for searching relevant passages: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=512)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=512)

# Compute token embeddings
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# normalize embeddings
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    #Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

📄 許可證

Arctic 採用 Apache-2 許可證。發佈的模型可免費用於商業用途。

🔧 致謝

我們要感謝開源社區，他們提供了優秀的基礎組件，使我們能夠開發出這些模型。感謝我們的建模工程師 Danmei Xu、Luke Merrick、Gaurav Nuti 和 Daniel Campos，是他們讓這些優秀的模型成為可能。感謝我們的領導 Himabindu Pucha、Kelvin So、Vivek Raghunathan 和 Sridhar Ramaswamy，感謝他們對這項工作的支持。同時，感謝開源社區提供了優秀的模型，使我們能夠在此基礎上進行開發併發布這些模型。最後，感謝創建 BEIR 和 MTEB 基準的研究人員。正是由於他們不懈的努力，定義了更好的標準，我們才能提高模型性能。