e5-base-multilingual-4096開源模型 - 支持多語言文本嵌入處理4096個標記

首頁

E5 Base Multilingual 4096

由efederici開發

E5-base-multilingual-4096是基於intfloat/multilingual-e5-base的局部稀疏全局版本，支持處理最多4096個標記的多語言文本嵌入模型。

文本嵌入

Transformers

支持多種語言#多語言文本嵌入 #長文本處理 #跨語言檢索

下載量 340

發布時間 : 6/15/2023

模型概述

該模型是多語言文本嵌入模型，專門用於句子相似度任務，能夠處理多種語言的文本並生成高質量的嵌入向量。

模型特點

多語言支持

支持超過100種語言的文本嵌入，包括主要的世界語言和許多小眾語言。

長文本處理

能夠處理最多4096個標記的長文本，適合處理較長的文檔和段落。

高質量嵌入

基於弱監督對比預訓練方法，生成高質量的文本嵌入向量。

模型能力

多語言文本嵌入

句子相似度計算

跨語言信息檢索

使用案例

信息檢索

跨語言文檔檢索

使用該模型可以檢索不同語言但內容相似的文檔。

提高跨語言檢索的準確性和效率

問答系統

多語言問答

構建支持多種語言的問答系統，能夠理解不同語言的查詢並返回相關答案。

提升問答系統的語言覆蓋範圍

🚀 E5-base-multilingual-4096

E5-base-multilingual-4096 是 intfloat/multilingual-e5-base 的 Local-Sparse-Global 版本，它能夠處理多達 4k 個標記。

🚀 快速開始

💻 使用示例

基礎用法

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def average_pool(
  last_hidden_states: Tensor,
  attention_mask: Tensor
) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

input_texts = [
  'query: how much protein should a female eat',
  'query: summit define',
  "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
  "passage: Definition of summit for English Language Learners. : 1  the highest point of a mountain : the top of a mountain. : 2  the highest level. : 3  a meeting or series of meetings between the leaders of two or more governments."
]

tokenizer = AutoTokenizer.from_pretrained('efederici/e5-base-multilingual-4096')
model = AutoModel.from_pretrained('efederici/e5-base-multilingual-4096', trust_remote_code=True)

batch_dict = tokenizer(input_texts, max_length=4096, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# (Optionally) normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100

print(scores.tolist())

引用信息

@article{wang2022text,
  title={Text Embeddings by Weakly-Supervised Contrastive Pre-training},
  author={Wang, Liang and Yang, Nan and Huang, Xiaolong and Jiao, Binxing and Yang, Linjun and Jiang, Daxin and Majumder, Rangan and Wei, Furu},
  journal={arXiv preprint arXiv:2212.03533},
  year={2022}
}