polish-reranker-base-mse開源波蘭語文本排序模型

首頁

Polish Reranker Base Mse

由sdadas開發

這是一個基於均方誤差（MSE）蒸餾方法訓練的波蘭語文本排序模型，訓練數據集包含140萬條查詢和1000萬份文檔的文本對。

文本嵌入

Transformers

其他開源協議:Apache-2.0 #波蘭語文本排序 #MSE蒸餾訓練 #信息檢索優化

下載量 16

發布時間 : 2/3/2024

模型概述

該模型是一個波蘭語文本排序模型，主要用於信息檢索任務中的文本相關性排序。它通過MSE蒸餾方法訓練，能夠復現大型教師模型的排序結果。

模型特點

MSE蒸餾訓練

使用均方誤差蒸餾方法訓練，能夠有效復現大型教師模型的排序結果

大規模訓練數據

訓練數據集包含140萬條查詢和1000萬份文檔的文本對

多領域覆蓋

訓練數據包含通用搜索、問答和醫學領域內容

模型能力

文本相關性排序

信息檢索

問答系統支持

使用案例

信息檢索

搜索引擎結果排序

對搜索引擎返回的結果進行相關性排序

提高搜索結果的相關性

問答系統

答案排序

對問答系統生成的多個候選答案進行排序

選擇最相關的答案

🚀 波蘭文本重排模型（polish-reranker-base-mse）

這是一個波蘭語的文本排序模型，它採用均方誤差（MSE）蒸餾方法，在包含140萬個查詢和1000萬個文檔的大型文本對數據集上進行訓練。該模型能夠有效對波蘭語文本進行排序，在信息檢索等場景中具有重要價值。

✨ 主要特性

基於大規模數據集訓練：使用由140萬個查詢和1000萬個文檔組成的文本對數據集進行訓練，數據來源廣泛，包括波蘭語的MS MARCO訓練集、翻譯為波蘭語的ELI5數據集以及波蘭醫學問答集。
採用MSE蒸餾方法：在訓練過程中，學生模型被訓練直接複製教師模型的輸出，有助於提升模型性能。
多框架支持：既可以與sentence-transformers庫結合使用，也能在Huggingface Transformers框架下使用。

📦 安裝指南

文檔未提及具體安裝步驟，可參考sentence-transformers和Huggingface Transformers庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法（Sentence-Transformers）

from sentence_transformers import CrossEncoder
import torch.nn

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model = CrossEncoder(
    "sdadas/polish-reranker-base-mse",
    default_activation_function=torch.nn.Identity(),
    max_length=512,
    device="cuda" if torch.cuda.is_available() else "cpu"
)
pairs = [[query, answer] for answer in answers]
results = model.predict(pairs)
print(results.tolist())

基礎用法（Huggingface Transformers）

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import numpy as np

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model_name = "sdadas/polish-reranker-base-mse"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [f"{query}</s></s>{answer}" for answer in answers]
tokens = tokenizer(texts, padding="longest", max_length=512, truncation=True, return_tensors="pt")
output = model(**tokens)
results = output.logits.detach().numpy()
results = np.squeeze(results)
print(results.tolist())

📚 詳細文檔

訓練數據

訓練數據包含以下幾個部分：

波蘭語的MS MARCO訓練集（80萬個查詢）。
翻譯為波蘭語的ELI5數據集（超過50萬個查詢）。
波蘭醫學問答集（約10萬個查詢）。

教師模型和學生模型

教師模型：採用了基於MT5 - XXL架構的大型多語言重排模型[unicamp - dl/mt5 - 13b - mmarco - 100k](https://huggingface.co/unicamp - dl/mt5 - 13b - mmarco - 100k)。
學生模型：選擇了[Polish RoBERTa](https://huggingface.co/sdadas/polish - roberta - base - v2)。

評估結果

該模型在波蘭信息檢索基準測試的重排器類別中實現了NDCG@10為57.50的成績。詳細結果請參考PIRB排行榜。

📄 許可證

本模型採用Apache 2.0許可證。

📚 引用

@article{dadas2024assessing,
  title={Assessing generalization capability of text ranking models in Polish}, 
  author={Sławomir Dadas and Małgorzata Grębowiec},
  year={2024},
  eprint={2402.14318},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}