Snowflake Arctic-embed-l-v2.0开源嵌入模型 - 支持多语言，优化检索与推理效率

首页

Snowflake Arctic Embed L V2.0 Gguf

由 Casual-Autopsy 开发

Snowflake Arctic-embed-l-v2.0 是 Snowflake 发布的最新嵌入模型，专为多语言工作负载设计，优化了检索性能和推理效率。

文本嵌入支持多种语言#多语言检索 #高效推理 #长文本支持

下载量 4,066

发布时间 : 2/6/2025

模型简介

Arctic Embed 2.0 为多语言嵌入模型设立了新标准，在不牺牲英语性能的前提下，实现了高质量的多语言文本检索。

模型特点

无妥协的多语言支持

在英语和非英语检索中表现出色，在 MTEB Retrieval、CLEF 和 MIRACL 等基准测试中优于领先的开源和专有模型。

推理效率

其 303m 非嵌入参数推理速度快，适用于任何规模的效率需求。

压缩友好

通过 Matryoshka 表示学习（MRL）和量化感知嵌入训练，实现高质量检索，嵌入向量小至 128 字节/向量。

直接替换

基于 BAAI/bge-m3-retromae，可直接替换任何形式的新库、内核、推理引擎等。

长上下文支持

通过 RoPE 支持高达 8192 的上下文窗口。

模型能力

多语言文本检索

句子相似度计算

高效推理

高质量嵌入

使用案例

信息检索

企业级多语言搜索

适用于需要大规模可靠、企业级多语言搜索和检索的应用。

在 MTEB Retrieval、CLEF 和 MIRACL 等基准测试中表现优异。

自然语言处理

多语言文本相似度计算

用于计算不同语言文本之间的相似度。

支持多种语言的文本相似度计算。

🚀 Snowflake的Arctic-embed-l-v2.0

Snowflake的Arctic-embed-l-v2.0是一款优化检索性能和推理效率的嵌入模型，支持多语言检索，在英语和非英语检索方面表现出色，适用于需要大规模多语言搜索和检索的企业级应用。

🚀 快速开始

本项目是使用 llama.cpp 创建的 Snowflake/snowflake-arctic-embed-l-v2.0 的GGUF量化版本。

✨ 主要特性

Snowflake arctic-embed-l-v2.0是Snowflake发布的嵌入模型套件中的最新成员，它针对检索性能和推理效率进行了优化。Arctic Embed 2.0为多语言嵌入模型树立了新的标准，在不牺牲英语性能的前提下，实现了高质量的多语言文本检索。该模型根据宽松的Apache 2.0许可证发布，非常适合需要可靠的企业级大规模多语言搜索和检索的应用程序。

主要特性如下：

多语言无妥协：在英语和非英语检索方面表现出色，在MTEB Retrieval、CLEF和MIRACL等基准测试中优于领先的开源和专有模型。
推理效率高：其3.03亿个非嵌入参数的推理速度快，适用于任何规模的应用。
压缩友好：使用Matryoshka Representation Learning（MRL）和量化感知嵌入训练，即使嵌入向量小至128字节/向量，也能实现高质量的检索。
直接替换：arctic-embed-l-v2.0基于 BAAI/bge-m3-retromae 构建，允许直接替换任何形式的新库、内核、推理引擎等进行推理。
长上下文支持：arctic-embed-l-v2.0基于 BAAI/bge-m3-retromae 构建，通过使用RoPE可以支持长达8192的上下文窗口。

质量基准

与大多数其他开源模型不同，Arctic-embed-l-v2.0在英语（通过MTEB Retrieval）和多语言（通过MIRACL和CLEF）方面都表现出色。您不再需要支持多个模型来实现高质量的英语和多语言检索。以下所有数字均为所讨论数据集上的平均NDCG@10。

模型名称	参数数量	非嵌入参数数量	维度	BEIR (15)	MIRACL (4)	CLEF (聚焦)	CLEF (完整)
snowflake-arctic-l-v2.0	5.68亿	3.03亿	1024	55.6	55.8	52.9	54.3
snowflake-arctic-m	1.09亿	8600万	768	54.9	24.9	34.4	29.1
snowflake-arctic-l	3.35亿	3.03亿	1024	56.0	34.8	38.2	33.7
me5 base	5.6亿	3.03亿	1024	51.4	54.0	43.0	34.6
bge-m3 (BAAI)	5.68亿	3.03亿	1024	48.8	56.8	40.8	41.3
gte (Alibaba)	3.05亿	1.13亿	768	51.1	52.3	47.7	53.1

除了高质量的检索，arctic还能提供易于压缩的嵌入向量。通过MRL进行向量截断，可将向量大小减小4倍，而质量下降不到3%。将MRL向量与向量压缩（Int4）结合使用，每个文档仅需128字节即可实现检索。

模型		BEIR (15)	相对性能	MIRACL (4)	相对性能	CLEF (5)	相对性能	CLEF (完整)	相对性能
snowflake-arctic-l-v2.0	1024	55.6	不适用	55.8	不适用	52.9	不适用	54.3	不适用
snowflake-arctic-l-v2.0	256	54.3	-0.18%	54.3	-2.70%	51.9	-1.81%	53.4	-1.53%

📦 安装指南

若要使用 Transformers.js JavaScript库，可通过以下命令从 NPM 进行安装：

npm i @huggingface/transformers

💻 使用示例

基础用法

使用Sentence Transformers

from sentence_transformers import SentenceTransformer

# 加载模型
model_name = 'Snowflake/snowflake-arctic-embed-l-v2.0'
model = SentenceTransformer(model_name)

# 定义查询和文档
queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

# 计算嵌入向量：使用 `prompt_name="query"` 对查询进行编码！
query_embeddings = model.encode(queries, prompt_name="query") 
document_embeddings = model.encode(documents)

# 计算余弦相似度得分
scores = model.similarity(query_embeddings, document_embeddings)

# 输出结果
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface Transformers

您可以使用transformers包来使用Snowflake的arctic-embed模型，如下所示。为了获得最佳的检索质量，请使用CLS标记对每个文本部分进行嵌入，并使用以下查询前缀（仅用于查询）。

import torch
from transformers import AutoModel, AutoTokenizer

model_name = 'Snowflake/snowflake-arctic-embed-l-v2.0'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
model.eval()

query_prefix = 'query: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)

# 计算标记嵌入向量
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 归一化嵌入向量
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 输出段落和得分
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

此代码应产生以下得分：

Query: what is snowflake?
tensor(0.2715) The Data Cloud!
tensor(0.0661) Mexico City of Course!
Query: Where can I get the best tacos?
tensor(0.2797) Mexico City of Course!
tensor(0.1250) The Data Cloud!

使用Huggingface Transformers.js

import { pipeline, dot } from '@huggingface/transformers';

// 创建特征提取管道
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-m-v2.0', {
    dtype: 'q8',
});

// 生成句子嵌入向量
const sentences = [
    'query: what is snowflake?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 计算相似度得分
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.24783534471401417, 0.05313122704326892]

📚 详细文档

模型信息

属性	详情
基础模型	Snowflake/snowflake-arctic-embed-l-v2.0
任务类型	句子相似度
标签	xlm-roberta、mteb、arctic、snowflake-arctic-embed、text-embeddings-inference
库名称	sentence-transformers
支持语言	af、ar、az、be、bg、bn、ca、ceb、cs、cy、da、de、el、en、es、et、eu、fa、fi、fr、gl、gu、he、hi、hr、ht、hu、hy、id、is、it、ja、jv、ka、kk、km、kn、ko、ky、lo、lt、lv、mk、ml、mn、mr、ms、my、ne、nl、pa、pl、pt、qu、ro、ru、si、sk、sl、so、sq、sr、sv、sw、ta、te、th、tl、tr、uk、ur、vi、yo、zh