crossencoder-mdebertav3-base-mmarcoFRオープンソースモデル - 無料デプロイでフランス語の段落再並べに力を添える

Home

Crossencoder Mdebertav3 Base Mmarcofr

Developed by antoinelouis

これはmDeBERTa-v3-baseをベースにしたフランス語のクロスエンコーダーモデルで、段落の再ランキングタスクに特化しており、mMARCO-frデータセットで優れた性能を発揮します。

テキスト埋め込み

Safetensors

FrenchOpen Source License:MIT #フランス語の再ランキング #クロスアテンション #情報検索

Downloads 111

Release Time : 5/3/2024

Model Overview

このモデルは質問と段落のペアに対してクロスアテンション計算を実行し、関連性スコアを出力します。主にセマンティック検索の再ランキング段階で使用され、検索結果の関連性順位を向上させることができます。

Model Features

効率的な再ランキング

初期検索システムで取得された段落を効率的に再ランキングし、検索結果の品質を向上させます

フランス語最適化

フランス語テキストに特化して最適化されており、フランス語検索タスクで優れた性能を発揮します

クロスアテンションメカニズム

クエリと段落間の関連性を計算するためにクロスアテンションを採用し、より正確なランキングスコアを提供します

Model Capabilities

セマンティック検索

テキスト関連性スコアリング

段落再ランキング

Use Cases

情報検索

検索エンジン結果の最適化

検索エンジンで初期検索結果を再ランキングするために使用されます

Recall@500が97.4に達し、検索効果を大幅に向上させます

質問応答システム

質問応答システムで候補となる回答段落をランキングするために使用されます

MRR@10が36.16に達し、回答品質を効果的に向上させます

🚀 crossencoder-mdebertav3-base-mmarcoFR

このモデルはフランス語用のクロスエンコーダーモデルです。質問とパラグラフのペア間でクロスアテンションを実行し、関連性スコアを出力します。セマンティック検索のリランカーとして使用することを想定しています。

🚀 クイックスタート

このモデルは、フランス語の質問とパラグラフのペアに対してクロスアテンションを行い、関連性スコアを出力します。セマンティック検索のリランカーとして使用することができます。

✨ 主な機能

フランス語の質問とパラグラフのペアに対してクロスアテンションを行い、関連性スコアを出力します。
セマンティック検索のリランカーとして使用することができます。

📦 インストール

Sentence-Transformersを使用する場合

pip install -U sentence-transformers

FlagEmbeddingを使用する場合

pip install -U FlagEmbedding

Huggingface Transformersを使用する場合

pip install -U transformers

💻 使用例

基本的な使用法

Sentence-Transformersを使用する場合

from sentence_transformers import CrossEncoder

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

model = CrossEncoder('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
scores = model.predict(pairs)
print(scores)

FlagEmbeddingを使用する場合

from FlagEmbedding import FlagReranker

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

reranker = FlagReranker('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
scores = reranker.compute_score(pairs)
print(scores)

HuggingFace Transformersを使用する場合

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

tokenizer = AutoTokenizer.from_pretrained('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
model = AutoModelForSequenceClassification.from_pretrained('antoinelouis/crossencoder-mdebertav3-base-mmarcoFR')
model.eval()

with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)

📚 ドキュメント

評価

このモデルは、mMARCO-frの小規模開発セットで評価されています。このセットは6,980のクエリで構成されており、1000のパラグラフ（正例とColBERTv2のハードネガティブを含む）をリランクする必要があります。平均逆順位（MRR）と様々なカットオフでのリコール（R@k）を報告しています。他のフランス語のニューラルリトリーバーとの比較は、DécouvrIRのリーダーボードを参照してください。

学習

データ

mMARCOデータセットのフランス語学習サンプルを使用しています。これはMS MARCOの多言語機械翻訳版で、880万のパラグラフと53.9万の学習クエリを含んでいます。公式データセットが提供するBM25ネガティブは使用せず、12の異なる密リトリーバーから採掘されたハードネガティブをサンプリングしています。最終的に、正例と負例の比率が1（つまり、ペアの50％が関連しており、50％が関連していない）の260万の学習トリプレット（クエリ、パラグラフ、関連性）をサンプリングしています。

実装

モデルは、microsoft/mdeberta-v3-baseのチェックポイントから初期化され、二値交差エントロピー損失を使用して最適化されています。1つの80GB NVIDIA H100 GPUで20kステップ、AdamWオプティマイザーを使用して微調整されています。バッチサイズは128、学習率は2e-5です。連結された質問とパラグラフのペアの最大シーケンス長は256トークンに設定されています。シグモイド関数を使用して0から1の間のスコアを取得します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 引用

@online{louis2024decouvrir,
	author    = 'Antoine Louis',
	title     = 'DécouvrIR: A Benchmark for Evaluating the Robustness of Information Retrieval Models in French',
	publisher = 'Hugging Face',
	month     = 'mar',
	year      = '2024',
	url       = 'https://huggingface.co/spaces/antoinelouis/decouvrir',
}

属性	详情
パイプラインタグ	テキストランキング
言語	フランス語
ライセンス	MIT
データセット	unicamp-dl/mmarco
評価指標	リコール
タグ	パッセージリランキング
ライブラリ名	sentence-transformers
ベースモデル	microsoft/mdeberta-v3-base