Snowflake Arctic Embed M v2.0開源多語言模型 - 支持50+語言句子相似度及特徵提取

首頁

Snowflake Arctic Embed M V2.0

由Snowflake開發

Snowflake Arctic Embed M v2.0 是一個多語言句子嵌入模型，支持超過50種語言，專注於句子相似度和特徵提取任務。

文本嵌入

Transformers

支持多種語言開源協議:Apache-2.0 #多語言嵌入 #句子相似度計算 #跨語言檢索

下載量 92.30k

發布時間 : 11/8/2024

模型概述

該模型是一個高效的句子轉換器，能夠將文本轉換為高質量的嵌入向量，適用於多種自然語言處理任務，如句子相似度計算、信息檢索和文本分類。

模型特點

多語言支持

支持超過50種語言，適用於全球化的應用場景。

高性能句子嵌入

能夠生成高質量的句子嵌入向量，適用於多種自然語言處理任務。

廣泛的評估基準

在MTEB等多個基準測試中表現出色，涵蓋分類、聚類、檢索等多種任務。

模型能力

句子相似度計算

特徵提取

文本分類

信息檢索

文本聚類

使用案例

電子商務

產品評論分類

對亞馬遜等電商平臺的產品評論進行分類，識別正面和負面評價。

在亞馬遜極性分類任務中達到70.36%的準確率。

客戶支持

重複問題檢測

識別客戶支持平臺中的重複問題，提高支持效率。

在AskUbuntu重複問題任務中MAP達到60.65%。

學術研究

論文聚類

對學術論文進行聚類，幫助研究人員發現相關研究。

在論文聚類P2P任務中V度量達到44.68%。

🚀 Snowflake的Arctic-embed-m-v2.0

Snowflake的Arctic-embed-m-v2.0是一款專為多語言工作負載設計的嵌入模型，在檢索性能和推理效率方面進行了優化。它能在不犧牲英語性能的前提下，實現高質量的多語言文本檢索，適用於需要大規模、可靠的企業級多語言搜索和檢索的應用場景。

🚀 快速開始

使用Sentence Transformers

from sentence_transformers import SentenceTransformer

# 加載模型
model_name = 'Snowflake/snowflake-arctic-embed-m-v2.0'
model = SentenceTransformer(model_name, trust_remote_code=True)

# 定義查詢和文檔
queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

# 計算嵌入向量：使用 `prompt_name="query"` 對查詢進行編碼！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 計算餘弦相似度得分
scores = model.similarity(query_embeddings, document_embeddings)

# 輸出結果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers

import torch
from transformers import AutoModel, AutoTokenizer

model_name = 'Snowflake/snowflake-arctic-embed-m-v2.0'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False, trust_remote_code=True)
model.eval()

query_prefix = 'query: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 計算令牌嵌入向量
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 歸一化嵌入向量
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 輸出段落和得分
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers.js

npm i @huggingface/transformers

import { pipeline, dot } from '@huggingface/transformers';

// 創建特徵提取管道
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-m-v2.0');

// 生成句子嵌入向量
const sentences = [
    'query: what is snowflake?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 計算相似度得分
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.32719788157046004, 0.06960141111667434]

✨ 主要特性

多語言無妥協：在英語和非英語檢索任務中均表現出色，在MTEB Retrieval、CLEF和MIRACL等基準測試中超越了許多領先的開源和專有模型。
推理高效：擁有1.13億非嵌入參數，推理速度快，適用於任何規模的應用。
壓縮友好：通過Matryoshka Representation Learning (MRL)和量化感知嵌入訓練，即使嵌入向量低至128字節/向量，仍能實現高質量的檢索。請注意，與v1.5模型類似，此模型的MRL為256維，通過4位量化（例如使用pq256x4fs快速掃描FAISS索引或使用與1.5模型一起發佈的示例代碼）可實現高質量的128字節壓縮。
長上下文支持：基於GTE-multilingual-base構建，通過RoPE可支持長達8192的上下文窗口。

📦 質量基準

與大多數其他開源模型不同，Arctic-embed-m-v2.0在英語（通過MTEB Retrieval）和多語言（通過MIRACL和CLEF）任務中均表現出色。以下是各模型在不同數據集上的平均NDCG@10數據：

模型名稱	參數數量	非嵌入參數數量	維度	BEIR (15)	MIRACL (4)	CLEF (聚焦)	CLEF (完整)
snowflake-arctic-m-v2.0	3.05億	1.13億	768	55.4	55.2	51.7	53.9
snowflake-arctic-m	1.09億	8600萬	768	54.9	24.9	34.4	29.1
me5 base	5.6億	3.03億	1024	51.4	54.0	43.0	34.6
bge-m3 (BAAI)	5.68億	3.03億	1024	48.8	56.8	40.8	41.3
gte (Alibaba)	3.05億	1.13億	768	51.1	52.3	47.7	53.1