polish-reranker-base-ranknetオープンソースモデル - ポーランド語テキストの情報検索タスクのソートに力を添える

ホーム

Polish Reranker Base Ranknet

sdadasによって開発

RankNet損失関数で訓練されたポーランド語テキストランキングモデル、情報検索タスクに適応

テキスト埋め込み

Transformers

その他オープンソースライセンス:Apache-2.0 #ポーランド語テキストランキング #RankNet最適化 #情報検索

ダウンロード数 332

リリース時間 : 2/3/2024

モデル概要

これはRankNet損失関数で訓練されたポーランド語テキストランキングモデルで、情報検索システムにおけるクエリとドキュメントの関連性ランキング効果を向上させることを主な目的としています。

モデル特徴

RankNet訓練手法

各ドキュメントを独立して処理するのではなく、クエリ-ドキュメントペアの相対的ランキングに基づくRankNet損失関数を使用

大規模訓練データ

訓練データセットには140万のクエリと1000万のドキュメントが含まれ、様々な分野のデータをカバー

知識蒸留

大規模なMT5-XXL教師モデルを使用した知識蒸留訓練を採用

モデル能力

クエリ-ドキュメント関連性スコアリング

検索結果の再ランキング

複数ドキュメント関連性比較

使用事例

情報検索システム

検索エンジン結果最適化

検索エンジンが返すドキュメントを再ランキングし、関連ドキュメントの順位を向上

質問応答システム

候補回答から質問に最も関連性の高い回答を選択

医療分野

医療QAランキング

医療QAシステムにおける回答の関連性ランキング

🚀 polish-reranker-base-ranknet

このモデルは、140万件のクエリと1000万件のドキュメントからなる大規模なテキストペアデータセットを使用して、RankNet損失で学習されたポーランド語のテキストランキングモデルです。学習データには、ポーランド語版のMS MARCO学習データ、ポーランド語に翻訳されたELI5データセット、ポーランド語の医療関連の質問と回答のコレクションが含まれています。

🚀 クイックスタート

このモデルは、ポーランド語のテキストランキングに特化しており、大規模なデータセットを用いて学習されています。RankNet損失を使用することで、クエリとドキュメントのペアに基づいて損失を計算し、クエリに対するドキュメントの関連性を考慮したランキングを行います。

✨ 主な機能

ポーランド語のテキストランキングに特化したモデルです。
RankNet損失を使用して学習されており、クエリとドキュメントのペアに基づいて損失を計算します。
教師モデルとしてunicamp-dl/mt5-13b-mmarco-100kを、学生モデルとしてPolish RoBERTaを使用しています。

📦 インストール

このモデルを使用するには、sentence-transformersまたはHuggingface Transformersをインストールする必要があります。

💻 使用例

基本的な使用法

Sentence-Transformersを使用する場合

from sentence_transformers import CrossEncoder
import torch.nn

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model = CrossEncoder(
    "sdadas/polish-reranker-base-ranknet",
    default_activation_function=torch.nn.Identity(),
    max_length=512,
    device="cuda" if torch.cuda.is_available() else "cpu"
)
pairs = [[query, answer] for answer in answers]
results = model.predict(pairs)
print(results.tolist())

Huggingface Transformersを使用する場合

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import numpy as np

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model_name = "sdadas/polish-reranker-base-ranknet"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [f"{query}</s></s>{answer}" for answer in answers]
tokens = tokenizer(texts, padding="longest", max_length=512, truncation=True, return_tensors="pt")
output = model(**tokens)
results = output.logits.detach().numpy()
results = np.squeeze(results)
print(results.tolist())

📚 ドキュメント

評価結果

このモデルは、ポーランド語情報検索ベンチマークのRerankersカテゴリでNDCG@10が60.32を達成しています。詳細な結果はPIRB Leaderboardを参照してください。

引用

@article{dadas2024assessing,
  title={Assessing generalization capability of text ranking models in Polish}, 
  author={Sławomir Dadas and Małgorzata Grębowiec},
  year={2024},
  eprint={2402.14318},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}