m-ST5开源多语言句子嵌入模型 - 免费部署助力跨语言语义检索

首页

M ST5

由 pkshatech 开发

m-ST5是基于mT5编码器构建的多语言句子嵌入模型，专为跨语言语义文本相似性和句子检索任务优化。

文本嵌入 #多语言句子嵌入 #跨语言语义相似度 #XNLI微调

下载量 30

发布时间 : 6/26/2023

模型简介

该模型是句子T5的多语言扩展版本，用于生成高质量的句子嵌入，支持跨语言语义文本相似性比较和句子检索。

模型特点

多语言支持

基于mT5架构，支持多种语言的句子嵌入生成。

高效微调

使用LoRA技术进行适配，实现高效参数微调。

高性能

在跨语言语义文本相似性和句子检索任务中表现优于LaBSE等基准模型。

模型能力

跨语言句子嵌入生成

语义文本相似性计算

跨语言句子检索

使用案例

跨语言信息检索

多语言文档检索

在不同语言的文档集合中查找语义相似的句子。

在BUCC任务中达到97.6的准确率

语义相似性分析

跨语言文本相似性评估

比较不同语言文本之间的语义相似度。

在XSTS任务中优于LaBSE模型

🚀 peft

peft 是用于mT5编码器的 LoRA 适配权重库，其扩展出的多语言句子编码器 m-ST5 在跨语言语义文本相似度和句子检索任务中表现出色。

🚀 快速开始

安装

如果你还未安装 peft，请执行以下命令：

pip install -q git+https://github.com/huggingface/transformers.git@main git+https://github.com/huggingface/peft.git

使用示例

基础用法

# 加载模型
from transformers import MT5EncoderModel
from peft import PeftModel

model =  MT5EncoderModel.from_pretrained("google/mt5-xxl")
model.enable_input_require_grads()
model.gradient_checkpointing_enable()
model: PeftModel = PeftModel.from_pretrained(model, "pkshatech/m-ST5")

高级用法

# 要获得句子嵌入，请使用平均池化
from transformers import AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("google/mt5-xxl", use_fast=False)
model.eval()

texts = ["I am a dog.","You are a cat."]
inputs = tokenizer(
    texts,
    padding=True,
    truncation=True,
    return_tensors="pt",
)
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state
last_hidden_state[inputs.attention_mask == 0, :] = 0
sent_len = inputs.attention_mask.sum(dim=1, keepdim=True)
sent_emb = last_hidden_state.sum(dim=1) / sent_len