mmarco-mMiniLMv2-L12-H384-v1開源多語言文本排序模型

首頁

Mmarco Mminilmv2 L12 H384 V1

由cross-encoder開發

基於MMARCO數據集訓練的多語言文本排序模型，支持14種語言的信息檢索任務

文本嵌入

Transformers

支持多種語言開源協議:Apache-2.0 #多語言檢索 #信息重排序 #跨語言語義匹配

下載量 42.56k

發布時間 : 6/1/2022

模型概述

該模型是一個多語言交叉編碼器，專為信息檢索場景設計。給定查詢時，可以對所有可能段落進行編碼並按得分排序，適用於多語言搜索引擎的重新排序任務。

模型特點

多語言支持

支持14種語言的文本排序任務，在MMARCO數據集上表現優異

高效架構

基於MiniLMv2的輕量級架構，12層Transformer和384維隱藏層

信息檢索優化

專為搜索引擎的查詢-段落相關性評分任務設計

模型能力

多語言文本排序

查詢-段落相關性評分

信息檢索結果重排序

使用案例

搜索引擎

多語言搜索結果重排序

對ElasticSearch等檢索系統返回的結果進行相關性重排序

提升搜索結果的相關性和準確性

問答系統

候選答案排序

對問答系統生成的多個候選答案進行相關性排序

幫助系統選擇最相關的答案

🚀 多語言MS Marco交叉編碼器

本模型用於解決多語言信息檢索中的排序問題，通過在多語言數據集上訓練，能夠對不同語言的查詢和段落進行相關性打分，在多語言信息檢索場景中具有重要價值。

🚀 快速開始

本模型基於 MMARCO 數據集進行訓練。這是一個使用谷歌翻譯對MS MARCO進行機器翻譯後的版本，被翻譯成了14種語言。在實驗中發現，該模型在其他語言上也表現良好。

基礎模型採用了多語言MiniLMv2 模型。

該模型可用於信息檢索：給定一個查詢，將查詢與所有可能的段落（例如通過ElasticSearch檢索得到的段落）進行編碼，然後按降序對段落進行排序。更多詳細信息請參閱 SBERT.net 檢索與重排序。訓練代碼可在 SBERT.net 訓練MS Marco 中找到。

💻 使用示例

基礎用法（使用SentenceTransformers）

當你安裝了 SentenceTransformers 後，使用起來會很方便。你可以像這樣使用預訓練模型：

from sentence_transformers import CrossEncoder
model = CrossEncoder('model_name')
scores = model.predict([('Query', 'Paragraph1'), ('Query', 'Paragraph2') , ('Query', 'Paragraph3')])

高級用法（使用Transformers）

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

📄 許可證

本項目採用Apache-2.0許可證。

📋 模型信息

屬性	詳情
支持語言	英語、阿拉伯語、中文、荷蘭語、法語、德語、印地語、印尼語、意大利語、日語、葡萄牙語、俄語、西班牙語、越南語、多語言
訓練數據集	unicamp-dl/mmarco
基礎模型	nreimers/mMiniLMv2-L12-H384-distilled-from-XLMR-Large
任務類型	文本排序
庫名稱	sentence-transformers
標籤	transformers