m-ST5開源多語言句子嵌入模型 - 免費部署助力跨語言語義檢索

首頁

M ST5

由pkshatech開發

m-ST5是基於mT5編碼器構建的多語言句子嵌入模型，專為跨語言語義文本相似性和句子檢索任務優化。

文本嵌入 #多語言句子嵌入 #跨語言語義相似度 #XNLI微調

下載量 30

發布時間 : 6/26/2023

模型概述

該模型是句子T5的多語言擴展版本，用於生成高質量的句子嵌入，支持跨語言語義文本相似性比較和句子檢索。

模型特點

多語言支持

基於mT5架構，支持多種語言的句子嵌入生成。

高效微調

使用LoRA技術進行適配，實現高效參數微調。

高性能

在跨語言語義文本相似性和句子檢索任務中表現優於LaBSE等基準模型。

模型能力

跨語言句子嵌入生成

語義文本相似性計算

跨語言句子檢索

使用案例

跨語言信息檢索

多語言文檔檢索

在不同語言的文檔集合中查找語義相似的句子。

在BUCC任務中達到97.6的準確率

語義相似性分析

跨語言文本相似性評估

比較不同語言文本之間的語義相似度。

在XSTS任務中優於LaBSE模型

🚀 peft

peft 是用於mT5編碼器的 LoRA 適配權重庫，其擴展出的多語言句子編碼器 m-ST5 在跨語言語義文本相似度和句子檢索任務中表現出色。

🚀 快速開始

安裝

如果你還未安裝 peft，請執行以下命令：

pip install -q git+https://github.com/huggingface/transformers.git@main git+https://github.com/huggingface/peft.git

使用示例

基礎用法

# 加載模型
from transformers import MT5EncoderModel
from peft import PeftModel

model =  MT5EncoderModel.from_pretrained("google/mt5-xxl")
model.enable_input_require_grads()
model.gradient_checkpointing_enable()
model: PeftModel = PeftModel.from_pretrained(model, "pkshatech/m-ST5")

高級用法

# 要獲得句子嵌入，請使用平均池化
from transformers import AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("google/mt5-xxl", use_fast=False)
model.eval()

texts = ["I am a dog.","You are a cat."]
inputs = tokenizer(
    texts,
    padding=True,
    truncation=True,
    return_tensors="pt",
)
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state
last_hidden_state[inputs.attention_mask == 0, :] = 0
sent_len = inputs.attention_mask.sum(dim=1, keepdim=True)
sent_emb = last_hidden_state.sum(dim=1) / sent_len