Snowflake Arctic Embed XS开源模型 - 轻量级工具搞定句子相似度和特征提取

首页

Snowflake Arctic Embed Xs

由 Snowflake 开发

Snowflake Arctic Embed XS 是一个轻量级的句子嵌入模型，专注于句子相似度和特征提取任务。

文本嵌入

Transformers

#句子相似度计算 #多任务文本嵌入 #低资源高效

下载量 125.31k

发布时间 : 4/12/2024

模型简介

该模型基于 sentence-transformers 架构，主要用于生成句子的嵌入表示，适用于句子相似度计算、文本分类和聚类等任务。

模型特点

轻量级设计

XS 版本针对效率和性能进行了优化，适合资源有限的环境。

多任务支持

支持句子相似度、分类、聚类和检索等多种自然语言处理任务。

高性能

在多个 MTEB 基准测试中表现出色，特别是在分类和检索任务上。

模型能力

句子相似度计算

文本特征提取

文本分类

文本聚类

信息检索

使用案例

电子商务

产品评论分类

对亚马逊产品评论进行情感极性分类

在 MTEB Amazon极性分类任务中达到 70.04% 准确率

反事实检测

识别亚马逊产品描述中的反事实陈述

在 MTEB AmazonCounterfactual分类任务中达到 65.09% 准确率

技术支持

重复问题检测

识别 AskUbuntu 论坛中的重复技术问题

在 MTEB AskUbuntu重复问题任务中达到 60.25 平均精度

学术研究

论文聚类

对 arXiv 和 bioRxiv 学术论文进行主题聚类

在 arXiv P2P 聚类任务中达到 43.50 V度量

🚀 Snowflake Arctic Embed 文本嵌入模型

Snowflake Arctic Embed 是一系列文本嵌入模型，专注于打造高性能的高质量检索模型。这些模型在 MTEB/BEIR 排行榜上的各尺寸变体中均达到了最先进的检索性能。

🚀 快速开始

使用 Sentence Transformers

你可以使用 sentence-transformers 包来使用 snowflake-arctic-embed 模型，示例如下：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Snowflake/snowflake-arctic-embed-xs")

queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

scores = query_embeddings @ document_embeddings.T
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

运行结果如下：

Query: what is snowflake?
0.57515126 The Data Cloud!
0.45798576 Mexico City of Course!
Query: Where can I get the best tacos?
0.5636022 Mexico City of Course!
0.5044898 The Data Cloud!

使用 Huggingface transformers

你可以使用 transformers 包来使用 snowflake-arctic-embed 模型，示例如下。为了获得最佳的检索质量，请使用 CLS 标记嵌入每个文本部分，并使用以下查询前缀（仅用于查询）：

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Snowflake/snowflake-arctic-embed-xs')
model = AutoModel.from_pretrained('Snowflake/snowflake-arctic-embed-xs', add_pooling_layer=False)
model.eval()

query_prefix = 'Represent this sentence for searching relevant passages: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=512)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=512)

# Compute token embeddings
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# normalize embeddings
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    #Output passages & scores
    print("Query:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用 Transformers.js

如果你还没有安装 Transformers.js JavaScript 库，可以通过以下命令从 NPM 安装：

npm i @xenova/transformers

然后你可以使用该模型计算嵌入，示例如下：

import { pipeline, dot } from '@xenova/transformers';

// Create feature extraction pipeline
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-xs', {
    quantized: false, // Comment out this line to use the quantized version
});

// Generate sentence embeddings
const sentences = [
    'Represent this sentence for searching relevant passages: Where can I get the best tacos?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// Compute similarity scores
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.5044895661144148, 0.5636021124426508]

✨ 主要特性

高性能检索：snowflake-arctic-embed 模型在 MTEB/BEIR 排行榜的各尺寸变体中均达到了最先进的检索性能。
多尺寸选择：提供了不同尺寸的模型，包括 xs、s、m、m-long 和 l，可以根据不同的需求选择合适的模型。
支持多语言：部分模型支持多语言工作负载。
可压缩嵌入向量：部分模型能够生成高度可压缩的嵌入向量，即使压缩到每个向量 128 字节，仍能保持质量。

📦 安装指南

使用 Sentence Transformers

pip install sentence-transformers

使用 Huggingface transformers

pip install transformers

使用 Transformers.js

npm i @xenova/transformers

💻 使用示例

基础用法

上述“快速开始”部分的代码示例展示了如何使用不同的库调用 snowflake-arctic-embed 模型进行文本嵌入和相似度计算。

📚 详细文档

模型介绍

snowflake-arctic-embed 是一系列文本嵌入模型，专注于创建针对性能优化的高质量检索模型。这些模型通过利用现有的开源文本表示模型（如 bert-base-uncased）进行训练，并在多阶段管道中进行训练，以优化其检索性能。

模型评估

雪片 - 北极嵌入 模型在 MTEB/BEIR 排行榜的各尺寸变体中均达到了最先进的性能。评估使用了这些脚本进行。

模型参数

模型名称	MTEB 检索得分 (NDCG @ 10)	参数数量 (百万)	嵌入维度
snowflake-arctic-embed-xs	50.15	22	384
snowflake-arctic-embed-s	51.98	33	384
snowflake-arctic-embed-m	54.90	110	768
snowflake-arctic-embed-m-long	54.83	137	768
snowflake-arctic-embed-l	55.98	335	1024

与其他模型对比

与闭源 API 模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-l	55.98
Google-gecko-text-embedding	55.7
text-embedding-3-large	55.44
Cohere-embed-english-v3.0	55.00
bge-large-en-v1.5	54.29

`snowflake-arctic-embed-xs` 与其他小模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-xs	50.15
GIST-all-MiniLM-L6-v2	45.12
gte-tiny	44.92
all-MiniLM-L6-v2	41.95
bge-micro-v2	42.56

`snowflake-arctic-embed-s` 与其他小模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-s	51.98
bge-small-en-v1.5	51.68
Cohere-embed-english-light-v3.0	51.34
text-embedding-3-small	51.08
e5-small-v2	49.04

`snowflake-arctic-embed-m` 与其他中等模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-m	54.90
bge-base-en-v1.5	53.25
nomic-embed-text-v1.5	53.25
GIST-Embedding-v0	52.31
gte-base	52.31

`snowflake-arctic-embed-m-long` 与其他长上下文模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-m-long	54.83
nomic-embed-text-v1.5	53.01
nomic-embed-text-v1	52.81

`snowflake-arctic-embed-l` 与其他大模型对比

模型名称	MTEB 检索得分 (NDCG @ 10)
snowflake-arctic-embed-l	55.98
UAE-Large-V1	54.66
bge-large-en-v1.5	54.29
mxbai-embed-large-v1	54.39
e5-Large-v2	50.56

🔧 技术细节

模型通过利用现有的开源文本表示模型（如 bert-base-uncased）进行训练，并在多阶段管道中进行训练，以优化其检索性能。首先，模型使用大量的查询 - 文档对进行训练，其中负样本是在批次内推导出来的 - 预训练利用了约 4 亿个样本，这些样本来自公共数据集和专有网络搜索数据的混合。预训练之后，模型在一个较小的数据集（约 100 万个样本）上进行长时间训练，该数据集包含查询、正文档和负文档的三元组，负样本通过困难有害挖掘得到。负样本的挖掘和数据整理对于检索准确性至关重要。详细的技术报告可以在这里找到。

📄 许可证

Arctic 采用 Apache-2 许可证。发布的模型可以免费用于商业目的。

项目动态

2024 年 12 月 4 日：发布 snowflake-arctic-embed-l-v2.0 和 snowflake-arctic-embed-m-v2.0，这是我们最新的考虑多语言工作负载的模型。这些模型优于之前版本的 Arctic Embed，我们建议使用这些模型替代之前的版本！
2024 年 7 月 26 日：在 arXiv 上发布预印本 [2407.18887] Embedding And Clustering Your Data Can Improve Contrastive Pretraining。
2024 年 7 月 18 日：发布 snowflake-arctic-embed-m-v1.5，该模型能够生成高度可压缩的嵌入向量，即使压缩到每个向量 128 字节，仍能保持质量。有关该模型开发的详细信息，请参阅 Snowflake 工程博客上的发布文章。
2024 年 5 月 10 日：发布关于 Arctic Embed 的技术报告。
2024 年 4 月 16 日：发布 snowflake-arctic-embed 系列文本嵌入模型。这些模型在各自的代表性尺寸配置文件中，检索质量达到了最先进水平。技术报告即将发布。更多详细信息，请参阅我们的 Github：Arctic-Text-Embed。

常见问题解答

待补充。

联系我们

如果您对这个项目有任何问题或建议，请随时打开一个 issue 或 pull request。您也可以发送电子邮件至 Daniel Campos（daniel.campos@snowflake.com）。

致谢

我们要感谢开源社区，他们提供了优秀的基础构建模块，使我们能够开发出这些模型。我们感谢我们的建模工程师 Danmei Xu、Luke Merrick、Gaurav Nuti 和 Daniel Campos，是他们让这些优秀的模型成为可能。我们感谢我们的领导 Himabindu Pucha、Kelvin So、Vivek Raghunathan 和 Sridhar Ramaswamy，感谢他们对这项工作的支持。我们也感谢开源社区，他们开发了优秀的模型，使我们能够在此基础上进行构建并发布这些模型。最后，我们感谢创建 BEIR 和 MTEB 基准的研究人员。正是由于他们不懈的努力来定义更好的标准，我们才能够提高模型性能。