🚀 crossencoder-mdebertav3-base-mmarcoFR
このモデルはフランス語用のクロスエンコーダーモデルです。質問とパラグラフのペア間でクロスアテンションを実行し、関連性スコアを出力します。セマンティック検索のリランカーとして使用することを想定しています。
🚀 クイックスタート
このモデルは、フランス語の質問とパラグラフのペアに対してクロスアテンションを行い、関連性スコアを出力します。セマンティック検索のリランカーとして使用することができます。
✨ 主な機能
- フランス語の質問とパラグラフのペアに対してクロスアテンションを行い、関連性スコアを出力します。
- セマンティック検索のリランカーとして使用することができます。
📦 インストール
Sentence-Transformersを使用する場合
pip install -U sentence-transformers
FlagEmbeddingを使用する場合
pip install -U FlagEmbedding
Huggingface Transformersを使用する場合
pip install -U transformers
💻 使用例
基本的な使用法
Sentence-Transformersを使用する場合
from sentence_transformers import CrossEncoder
pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]
model = CrossEncoder('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
scores = model.predict(pairs)
print(scores)
FlagEmbeddingを使用する場合
from FlagEmbedding import FlagReranker
pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]
reranker = FlagReranker('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
scores = reranker.compute_score(pairs)
print(scores)
HuggingFace Transformersを使用する場合
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]
tokenizer = AutoTokenizer.from_pretrained('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
model = AutoModelForSequenceClassification.from_pretrained('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
model.eval()
with torch.no_grad():
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)
📚 ドキュメント
評価
このモデルは、mMARCO-frの小規模開発セットで評価されています。このセットは6,980のクエリで構成されており、1000のパラグラフ(正例とColBERTv2のハードネガティブを含む)をリランクする必要があります。平均逆順位(MRR)と様々なカットオフでのリコール(R@k)を報告しています。他のフランス語のニューラルリトリーバーとの比較は、DécouvrIRのリーダーボードを参照してください。
学習
データ
mMARCOデータセットのフランス語学習サンプルを使用しています。これはMS MARCOの多言語機械翻訳版で、880万のパラグラフと53.9万の学習クエリを含んでいます。公式データセットが提供するBM25ネガティブは使用せず、12の異なる密リトリーバーから採掘されたハードネガティブをサンプリングしています。最終的に、正例と負例の比率が1(つまり、ペアの50%が関連しており、50%が関連していない)の260万の学習トリプレット(クエリ、パラグラフ、関連性)をサンプリングしています。
実装
モデルは、microsoft/mdeberta-v3-baseのチェックポイントから初期化され、二値交差エントロピー損失を使用して最適化されています。1つの80GB NVIDIA H100 GPUで20kステップ、AdamWオプティマイザーを使用して微調整されています。バッチサイズは128、学習率は2e-5です。連結された質問とパラグラフのペアの最大シーケンス長は256トークンに設定されています。シグモイド関数を使用して0から1の間のスコアを取得します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📚 引用
@online{louis2024decouvrir,
author = 'Antoine Louis',
title = 'DécouvrIR: A Benchmark for Evaluating the Robustness of Information Retrieval Models in French',
publisher = 'Hugging Face',
month = 'mar',
year = '2024',
url = 'https://huggingface.co/spaces/antoinelouis/decouvrir',
}
属性 |
详情 |
パイプラインタグ |
テキストランキング |
言語 |
フランス語 |
ライセンス |
MIT |
データセット |
unicamp-dl/mmarco |
評価指標 |
リコール |
タグ |
パッセージリランキング |
ライブラリ名 |
sentence-transformers |
ベースモデル |
microsoft/mdeberta-v3-base |