開源sentence-transformers-multilingual-e5-base模型 - 支持多語言聚類與語義搜索

首頁

Sentence Transformers Multilingual E5 Base

由embaas開發

這是一個多語言句子轉換器模型，將句子和段落映射到768維密集向量空間，支持多種語言，適用於聚類或語義搜索等任務。

文本嵌入

PyTorch

#多語言語義編碼 #檢索增強生成 #跨語言搜索

下載量 3,526

發布時間 : 5/28/2023

模型概述

該模型是intfloat/multilingual-e5-base的句子轉換器版本，能夠將文本轉換為高維向量表示，支持多語言處理，適用於信息檢索、語義相似度計算等場景。

模型特點

多語言支持

能夠處理多種語言的文本輸入，適用於跨語言應用場景。

高維向量表示

將文本映射到768維密集向量空間，捕捉豐富的語義信息。

前綴區分

支持通過'query:'和'passage:'前綴區分不同用途的文本輸入。

模型能力

文本向量化

語義相似度計算

多語言文本處理

信息檢索

使用案例

信息檢索

文檔檢索

將查詢和文檔轉換為向量後計算相似度，實現精準檢索。

語義分析

問答系統

通過計算問題與候選答案的語義相似度，實現智能問答。

🚀 多語言E5基礎模型 (句子轉換器)

這是 intfloat/multilingual-e5-base 模型的句子轉換器版本。它可以將句子和段落映射到一個768維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

安裝依賴

使用此模型前，你需要安裝 sentence-transformers：

pip install -U sentence-transformers

使用示例

基礎用法

from sentence_transformers import SentenceTransformer
# 每個輸入文本都應以 "query: " 或 "passage: " 開頭，即使是非英文文本。
# 對於檢索以外的任務，你可以簡單地使用 "query: " 前綴。
sentences = ['query: how much protein should a female eat',
               'query: 南瓜的家常做法',
               "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
               "passage: 1.清炒南瓜絲 原料:嫩南瓜半個 調料:蔥、鹽、白糖、雞精 做法: 1、南瓜用刀薄薄的削去表面一層皮,用勺子颳去瓤 2、擦成細絲(沒有擦菜板就用刀慢慢切成細絲) 3、鍋燒熱放油,入蔥花煸出香味 4、入南瓜絲快速翻炒一分鐘左右,放鹽、一點白糖和雞精調味出鍋 2.香蔥炒南瓜 原料:南瓜1只 調料:香蔥、蒜末、橄欖油、鹽 做法: 1、將南瓜去皮,切成片 2、油鍋8成熱後,將蒜末放入爆香 3、爆香後,將南瓜片放入,翻炒 4、在翻炒的同時,可以不時地往鍋里加水,但不要太多 5、放入鹽,炒勻 6、南瓜差不多軟和綿了之後,就可以關火 7、撒入香蔥,即可出鍋"]


model = SentenceTransformer('embaas/sentence-transformers-multilingual-e5-base')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

import torch.nn.functional as F

from torch import Tensor
from transformers import AutoTokenizer, AutoModel


def average_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]


# 每個輸入文本都應以 "query: " 或 "passage: " 開頭，即使是非英文文本。
# 對於檢索以外的任務，你可以簡單地使用 "query: " 前綴。
input_texts = ['query: how much protein should a female eat',
               'query: 南瓜的家常做法',
               "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
               "passage: 1.清炒南瓜絲 原料:嫩南瓜半個 調料:蔥、鹽、白糖、雞精 做法: 1、南瓜用刀薄薄的削去表面一層皮,用勺子颳去瓤 2、擦成細絲(沒有擦菜板就用刀慢慢切成細絲) 3、鍋燒熱放油,入蔥花煸出香味 4、入南瓜絲快速翻炒一分鐘左右,放鹽、一點白糖和雞精調味出鍋 2.香蔥炒南瓜 原料:南瓜1只 調料:香蔥、蒜末、橄欖油、鹽 做法: 1、將南瓜去皮,切成片 2、油鍋8成熱後,將蒜末放入爆香 3、爆香後,將南瓜片放入,翻炒 4、在翻炒的同時,可以不時地往鍋里加水,但不要太多 5、放入鹽,炒勻 6、南瓜差不多軟和綿了之後,就可以關火 7、撒入香蔥,即可出鍋"]

tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-base')
model = AutoModel.from_pretrained('intfloat/multilingual-e5-base')

# 對輸入文本進行分詞
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# （可選）對嵌入向量進行歸一化
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
print(scores.tolist())

使用API進行編碼

你可以使用 embaas API 對輸入進行編碼。從 embaas.io 獲取你的免費API密鑰。

import requests
 
url = "https://api.embaas.io/v1/embeddings/"
 
headers = {
    "Content-Type": "application/json",
    "Authorization": "Bearer ${YOUR_API_KEY}"
}
 
data = {
    "texts": ["This is an example sentence.", "Here is another sentence."],
    "instruction": "query",
    "model": "multilingual-e5-base"
}
 
response = requests.post(url, json=data, headers=headers)

📚 詳細文檔

評估結果

你可以在這裡找到MTEB評估結果。

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
  (2): Normalize()
)