Snowflake Arctic Embed L開源模型 - 免費用於自然語言處理的句子相似度及特徵提取

首頁

Snowflake Arctic Embed L

由Snowflake開發

Snowflake Arctic Embed L 是一個專注於句子相似度和特徵提取的模型，適用於多種自然語言處理任務。

文本嵌入

Transformers

開源協議:Apache-2.0 #句子嵌入 #多任務評估 #高維特徵提取

下載量 50.58k

發布時間 : 4/12/2024

模型概述

該模型主要用於句子轉換、特徵提取和句子相似度計算，支持多種評估任務，如分類、聚類、檢索和語義文本相似度。

模型特點

多任務支持

支持多種自然語言處理任務，包括分類、聚類、檢索和語義文本相似度。

高性能

在多個評估數據集上表現優異，如 AmazonCounterfactualClassification 和 BIOSSES。

易於集成

支持 Transformers.js，便於在前端和服務器端集成使用。

模型能力

句子相似度計算

特徵提取

文本分類

文本聚類

信息檢索

語義文本相似度分析

使用案例

電子商務

產品評論分類

用於對亞馬遜產品評論進行情感分析和分類。

在 AmazonPolarityClassification 任務中準確率達到 78.40%。

學術研究

論文聚類

用於對 arXiv 和 bioRxiv 論文進行主題聚類。

在 ArxivClusteringP2P 任務中 V-measure 達到 47.46%。

問答系統

問答檢索

用於在 CQADupstack 等問答平臺上檢索相關問題。

在 CQADupstackAndroidRetrieval 任務中 MAP@10 達到 49.43。

🚀 Snowflake的Arctic-embed-l

Snowflake的Arctic-embed-l是一套文本嵌入模型，專注於創建針對性能優化的高質量檢索模型。該模型旨在解決文本檢索中的準確性和效率問題，為用戶提供更精準、高效的文本檢索體驗。

🚀 快速開始

環境準備

確保你已經安裝了所需的Python庫，如sentence-transformers、transformers等。

代碼示例

以下是使用sentence-transformers庫調用snowflake-arctic-embed-l模型的示例代碼：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Snowflake/snowflake-arctic-embed-l")

queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

scores = query_embeddings @ document_embeddings.T
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 輸出段落和分數
    print("查詢:", query)
    for document, score in doc_score_pairs:
        print(score, document)

✨ 主要特性

高性能檢索：在MTEB/BEIR排行榜上，各尺寸變體的模型均達到了最先進的性能。
多模型選擇：提供snowflake-arctic-embed-xs、snowflake-arctic-embed-s、snowflake-arctic-embed-m、snowflake-arctic-embed-m-long和snowflake-arctic-embed-l等多種模型，滿足不同場景需求。
可替代閉源模型：最大的模型snowflake-arctic-embed-l可作為閉源嵌入的自然替代品。

📦 安裝指南

使用Sentence Transformers

pip install sentence-transformers

使用Huggingface transformers

pip install transformers

使用Transformers.js

npm i @xenova/transformers

💻 使用示例

基礎用法

使用Sentence Transformers

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Snowflake/snowflake-arctic-embed-l")

queries = ['what is snowflake?', 'Where can I get the best tacos?']
documents = ['The Data Cloud!', 'Mexico City of Course!']

query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

scores = query_embeddings @ document_embeddings.T
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 輸出段落和分數
    print("查詢:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Huggingface transformers

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Snowflake/snowflake-arctic-embed-l')
model = AutoModel.from_pretrained('Snowflake/snowflake-arctic-embed-l', add_pooling_layer=False)
model.eval()

query_prefix = 'Represent this sentence for searching relevant passages: '
queries  = ['what is snowflake?', 'Where can I get the best tacos?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=512)

documents = ['The Data Cloud!', 'Mexico City of Course!']
document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=512)

# 計算令牌嵌入
with torch.no_grad():
    query_embeddings = model(**query_tokens)[0][:, 0]
    document_embeddings = model(**document_tokens)[0][:, 0]

# 歸一化嵌入
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)

scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
    doc_score_pairs = list(zip(documents, query_scores))
    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    # 輸出段落和分數
    print("查詢:", query)
    for document, score in doc_score_pairs:
        print(score, document)

使用Transformers.js

import { pipeline, dot } from '@xenova/transformers';

// 創建特徵提取管道
const extractor = await pipeline('feature-extraction', 'Snowflake/snowflake-arctic-embed-l', {
    quantized: false, // 註釋掉此行以使用量化版本
});

// 生成句子嵌入
const sentences = [
    'Represent this sentence for searching relevant passages: Where can I get the best tacos?',
    'The Data Cloud!',
    'Mexico City of Course!',
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 計算相似度分數
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => dot(source_embeddings, x));
console.log(similarities); // [0.25145517380846977, 0.3865060421197194]

高級用法

使用Infinity進行OpenAI兼容API部署

docker run --gpus all -v $PWD/data:/app/.cache -p "7997":"7997" \
michaelf34/infinity:0.0.70 \
v2 --model-id Snowflake/snowflake-arctic-embed-l --dtype float16 --batch-size 32 --engine torch --port 7997

📚 詳細文檔

模型介紹

snowflake-arctic-embed是一套文本嵌入模型，通過利用現有的開源文本表示模型（如bert-base-uncased），並在多階段管道中進行訓練，以優化其檢索性能。

模型對比

名稱	MTEB檢索分數 (NDCG @ 10)	參數數量 (百萬)	嵌入維度
snowflake-arctic-embed-xs	50.15	22	384
snowflake-arctic-embed-s	51.98	33	384
snowflake-arctic-embed-m	54.90	110	768
snowflake-arctic-embed-m-long	54.83	137	768
snowflake-arctic-embed-l	55.98	335	1024