e5-base-multilingual-4096开源模型 - 支持多语言文本嵌入处理4096个标记

首页

E5 Base Multilingual 4096

由 efederici 开发

E5-base-multilingual-4096是基于intfloat/multilingual-e5-base的局部稀疏全局版本，支持处理最多4096个标记的多语言文本嵌入模型。

文本嵌入

Transformers

支持多种语言#多语言文本嵌入 #长文本处理 #跨语言检索

下载量 340

发布时间 : 6/15/2023

模型简介

该模型是多语言文本嵌入模型，专门用于句子相似度任务，能够处理多种语言的文本并生成高质量的嵌入向量。

模型特点

多语言支持

支持超过100种语言的文本嵌入，包括主要的世界语言和许多小众语言。

长文本处理

能够处理最多4096个标记的长文本，适合处理较长的文档和段落。

高质量嵌入

基于弱监督对比预训练方法，生成高质量的文本嵌入向量。

模型能力

多语言文本嵌入

句子相似度计算

跨语言信息检索

使用案例

信息检索

跨语言文档检索

使用该模型可以检索不同语言但内容相似的文档。

提高跨语言检索的准确性和效率

问答系统

多语言问答

构建支持多种语言的问答系统，能够理解不同语言的查询并返回相关答案。

提升问答系统的语言覆盖范围

🚀 E5-base-multilingual-4096

E5-base-multilingual-4096 是 intfloat/multilingual-e5-base 的 Local-Sparse-Global 版本，它能够处理多达 4k 个标记。

🚀 快速开始

💻 使用示例

基础用法

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def average_pool(
  last_hidden_states: Tensor,
  attention_mask: Tensor
) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

input_texts = [
  'query: how much protein should a female eat',
  'query: summit define',
  "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
  "passage: Definition of summit for English Language Learners. : 1  the highest point of a mountain : the top of a mountain. : 2  the highest level. : 3  a meeting or series of meetings between the leaders of two or more governments."
]

tokenizer = AutoTokenizer.from_pretrained('efederici/e5-base-multilingual-4096')
model = AutoModel.from_pretrained('efederici/e5-base-multilingual-4096', trust_remote_code=True)

batch_dict = tokenizer(input_texts, max_length=4096, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])

# (Optionally) normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T) * 100

print(scores.tolist())

引用信息

@article{wang2022text,
  title={Text Embeddings by Weakly-Supervised Contrastive Pre-training},
  author={Wang, Liang and Yang, Nan and Huang, Xiaolong and Jiao, Binxing and Yang, Linjun and Jiang, Daxin and Majumder, Rangan and Wei, Furu},
  journal={arXiv preprint arXiv:2212.03533},
  year={2022}
}