Snowflake Arctic Embed v2.0开源多语言模型 - 超100种语言文本特征提取与相似度计算

首页

Snowflake Arctic Embed L V2.0

由 Snowflake 开发

Snowflake Arctic Embed v2.0 是一个多语言句子嵌入模型，支持超过100种语言的文本特征提取和句子相似度计算。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言嵌入 #句子相似度计算 #高维特征提取

下载量 231.00k

发布时间 : 11/8/2024

模型简介

该模型专注于句子级别的特征提取和相似度计算，适用于多语言环境下的文本处理任务。

模型特点

多语言支持

支持超过100种语言的文本处理，包括主流语言和部分小众语言

高性能句子嵌入

在MTEB基准测试中表现出色，适用于多种NLP任务

多功能应用

可用于句子相似度、分类、聚类、检索等多种文本处理任务

模型能力

句子特征提取

文本相似度计算

多语言文本处理

文本分类

文本聚类

信息检索

使用案例

电子商务

产品评论分类

对亚马逊产品评论进行情感分析和分类

在MTEB亚马逊极性分类任务中准确率达到74.26%

反事实评论检测

识别亚马逊平台上的反事实评论

在MTEB亚马逊反事实分类任务中准确率达到67.04%

学术研究

论文聚类

对arXiv和BioRxiv论文进行主题聚类

在MTEB ArxivClusteringP2P任务中V度量达到43.97

问答系统

问答检索

在CQADupstack等技术问答平台上进行问题检索

在MTEB CQADupstackAndroidRetrieval任务中NDCG@10达到55.80

🚀 Snowflake's Arctic-embed-l-v2.0

Snowflake's Arctic-embed-l-v2.0是一款新的嵌入模型，旨在优化检索性能和推理效率。它在多语言文本检索方面表现出色，同时在英语任务中也不逊色。该模型在宽松的Apache 2.0许可下发布，非常适合需要大规模、可靠的企业级多语言搜索和检索的应用场景。

🚀 快速开始

使用Sentence Transformers

from sentence_transformers import SentenceTransformer

# 加载模型
model_name = 'Snowflake/snowflake-arctic-embed-l-v2.0'
model = SentenceTransformer(model_name)

# 定义查询和文档
queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

# 计算嵌入向量：使用 `prompt_name="query"` 来编码查询！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 计算余弦相似度得分
scores = model.similarity(query_embeddings, document_embeddings)

# 输出结果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers

你可以使用transformers包来使用Snowflake的arctic-embed模型，如下所示。为了获得最佳的检索质量，请使用CLS标记来嵌入每个文本部分，并在查询中使用以下查询前缀。

import torch
from transformers import AutoModel, AutoTokenizer

model_name = 'Snowflake/snowflake-arctic-embed-l-v2.0'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
model.eval()

query_prefix = 'query: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 计算标记嵌入向量
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 归一化嵌入向量
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 输出段落和得分
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers.js

如果你还没有安装Transformers.js JavaScript库，可以从NPM进行安装：

npm i @huggingface/transformers

然后你可以使用该模型进行检索，如下所示：

import { pipeline, dot } from '@huggingface/transformers';

// 创建特征提取管道
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-m-v2.0', {
    dtype: 'q8',
});

// 生成句子嵌入向量
const sentences = [
    'query: what is snowflake?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 计算相似度得分
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.24783534471401417, 0.05313122704326892]

✨ 主要特性

多语言无妥协：在英语和非英语检索任务中表现出色，在MTEB Retrieval、CLEF和MIRACL等基准测试中优于领先的开源和专有模型。
推理效率高：其303m非嵌入参数的推理速度快，适用于任何规模的应用。
易于压缩：使用Matryoshka Representation Learning (MRL)和量化感知嵌入训练，可实现低至128字节/向量的高质量检索。
即插即用：基于BAAI/bge-m3-retromae构建，可直接替换任何新库、内核、推理引擎等进行推理。
长上下文支持：基于BAAI/bge-m3-retromae构建，通过RoPE可支持长达8192的上下文窗口。

🔧 技术细节

质量基准

与大多数其他开源模型不同，Arctic-embed-l-v2.0在英语（通过MTEB Retrieval）和多语言（通过MIRACL和CLEF）任务中均表现出色。以下是一些模型在不同基准测试中的平均NDCG@10得分：

模型名称	参数数量	非嵌入参数数量	维度	BEIR (15)	MIRACL (4)	CLEF (Focused)	CLEF (Full)
snowflake-arctic-l-v2.0	568M	303M	1024	55.6	55.8	52.9	54.3
snowflake-arctic-m	109M	86M	768	54.9	24.9	34.4	29.1
snowflake-arctic-l	335M	303M	1024	56.0	34.8	38.2	33.7
me5 base	560M	303M	1024	51.4	54.0	43.0	34.6
bge-m3 (BAAI)	568M	303M	1024	48.8	56.8	40.8	41.3
gte (Alibaba)	305M	113M	768	51.1	52.3	47.7	53.1