Snowflake Arctic Embed M v2.0开源多语言模型 - 支持50+语言句子相似度及特征提取

首页

Snowflake Arctic Embed M V2.0

由 Snowflake 开发

Snowflake Arctic Embed M v2.0 是一个多语言句子嵌入模型，支持超过50种语言，专注于句子相似度和特征提取任务。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言嵌入 #句子相似度计算 #跨语言检索

下载量 92.30k

发布时间 : 11/8/2024

模型简介

该模型是一个高效的句子转换器，能够将文本转换为高质量的嵌入向量，适用于多种自然语言处理任务，如句子相似度计算、信息检索和文本分类。

模型特点

多语言支持

支持超过50种语言，适用于全球化的应用场景。

高性能句子嵌入

能够生成高质量的句子嵌入向量，适用于多种自然语言处理任务。

广泛的评估基准

在MTEB等多个基准测试中表现出色，涵盖分类、聚类、检索等多种任务。

模型能力

句子相似度计算

特征提取

文本分类

信息检索

文本聚类

使用案例

电子商务

产品评论分类

对亚马逊等电商平台的产品评论进行分类，识别正面和负面评价。

在亚马逊极性分类任务中达到70.36%的准确率。

客户支持

重复问题检测

识别客户支持平台中的重复问题，提高支持效率。

在AskUbuntu重复问题任务中MAP达到60.65%。

学术研究

论文聚类

对学术论文进行聚类，帮助研究人员发现相关研究。

在论文聚类P2P任务中V度量达到44.68%。

🚀 Snowflake的Arctic-embed-m-v2.0

Snowflake的Arctic-embed-m-v2.0是一款专为多语言工作负载设计的嵌入模型，在检索性能和推理效率方面进行了优化。它能在不牺牲英语性能的前提下，实现高质量的多语言文本检索，适用于需要大规模、可靠的企业级多语言搜索和检索的应用场景。

🚀 快速开始

使用Sentence Transformers

from sentence_transformers import SentenceTransformer

# 加载模型
model_name = 'Snowflake/snowflake-arctic-embed-m-v2.0'
model = SentenceTransformer(model_name, trust_remote_code=True)

# 定义查询和文档
queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

# 计算嵌入向量：使用 `prompt_name="query"` 对查询进行编码！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 计算余弦相似度得分
scores = model.similarity(query_embeddings, document_embeddings)

# 输出结果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers

import torch
from transformers import AutoModel, AutoTokenizer

model_name = 'Snowflake/snowflake-arctic-embed-m-v2.0'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False, trust_remote_code=True)
model.eval()

query_prefix = 'query: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 计算令牌嵌入向量
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 归一化嵌入向量
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 输出段落和得分
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers.js

npm i @huggingface/transformers

import { pipeline, dot } from '@huggingface/transformers';

// 创建特征提取管道
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-m-v2.0');

// 生成句子嵌入向量
const sentences = [
    'query: what is snowflake?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 计算相似度得分
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.32719788157046004, 0.06960141111667434]

✨ 主要特性

多语言无妥协：在英语和非英语检索任务中均表现出色，在MTEB Retrieval、CLEF和MIRACL等基准测试中超越了许多领先的开源和专有模型。
推理高效：拥有1.13亿非嵌入参数，推理速度快，适用于任何规模的应用。
压缩友好：通过Matryoshka Representation Learning (MRL)和量化感知嵌入训练，即使嵌入向量低至128字节/向量，仍能实现高质量的检索。请注意，与v1.5模型类似，此模型的MRL为256维，通过4位量化（例如使用pq256x4fs快速扫描FAISS索引或使用与1.5模型一起发布的示例代码）可实现高质量的128字节压缩。
长上下文支持：基于GTE-multilingual-base构建，通过RoPE可支持长达8192的上下文窗口。

📦 质量基准

与大多数其他开源模型不同，Arctic-embed-m-v2.0在英语（通过MTEB Retrieval）和多语言（通过MIRACL和CLEF）任务中均表现出色。以下是各模型在不同数据集上的平均NDCG@10数据：

模型名称	参数数量	非嵌入参数数量	维度	BEIR (15)	MIRACL (4)	CLEF (聚焦)	CLEF (完整)
snowflake-arctic-m-v2.0	3.05亿	1.13亿	768	55.4	55.2	51.7	53.9
snowflake-arctic-m	1.09亿	8600万	768	54.9	24.9	34.4	29.1
me5 base	5.6亿	3.03亿	1024	51.4	54.0	43.0	34.6
bge-m3 (BAAI)	5.68亿	3.03亿	1024	48.8	56.8	40.8	41.3
gte (Alibaba)	3.05亿	1.13亿	768	51.1	52.3	47.7	53.1