crossencoder-electra-base-mmarcoFRオープンソースのフランス語モデル - 意味検索の段落の再ソートを支援します

Home

Crossencoder Electra Base Mmarcofr

Developed by antoinelouis

これはELECTRAアーキテクチャに基づくフランス語クロスエンコーダーモデルで、意味検索における段落再ランキングタスク専用に設計されています。

テキスト埋め込み

Safetensors

FrenchOpen Source License:MIT #フランス語意味検索 #段落再ランキング #高リコール率

Downloads 18

Release Time : 9/16/2023

Model Overview

このモデルは質問-段落ペアに対してクロスアテンション機構を実行し、関連性スコアを出力します。主に意味検索の再ランキング段階で使用されます。

Model Features

効率的な再ランキング

フランス語意味検索のために特別に設計されており、検索結果を効率的に再ランキングできます。

ハードネガティブ例トレーニング

複数の密な検索器から抽出したハードネガティブ例を使用してトレーニングされており、モデルの識別能力を向上させています。

クロスアテンション機構

クエリ-段落ペアをエンコードするためにクロスアテンション機構を採用し、より豊富な意味関係を捉えることができます。

Model Capabilities

テキスト関連性スコアリング

意味検索再ランキング

フランス語テキスト処理

Use Cases

情報検索

検索エンジン結果最適化

検索エンジンで第二段階の再ランキングモデルとして使用され、結果の関連性を向上させます。

mMARCO-frデータセットでRecall@500が95.11を達成

質問応答システム

質問応答システムで候補回答をランキングするために使用され、最適な回答の順位を向上させます。

mMARCO-frデータセットでMRR@10が31.7を達成

🚀 crossencoder-electra-base-french-mmarcoFR

このモデルはフランス語用のクロスエンコーダーモデルです。質問と文章のペア間でクロスアテンションを行い、関連性スコアを出力します。このモデルは、意味検索のリランカーとして使用することを想定しています。具体的には、クエリと、効率的な一次検索システム（例えばBM25や微調整された密な単一ベクトルバイエンコーダー）によって取得された潜在的に関連する文章のセットが与えられた場合、各クエリ - 文章のペアをエンコードし、モデルが予測したスコアに従って文章を関連性の降順に並べ替えます。

🚀 クイックスタート

以下は、Sentence-Transformers、FlagEmbedding、またはHuggingface Transformersを使用してこのモデルを利用する例です。

📦 インストール

Sentence-Transformersを使用する場合

まず、ライブラリをインストールします。

pip install -U sentence-transformers

FlagEmbeddingを使用する場合

ライブラリをインストールします。

pip install -U FlagEmbedding

Huggingface Transformersを使用する場合

ライブラリをインストールします。

pip install -U transformers

💻 使用例

基本的な使用法

Sentence-Transformersを使用する場合

from sentence_transformers import CrossEncoder

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

model = CrossEncoder('antoinelouis/crossencoder-electra-base-french-mmarcoFR')
scores = model.predict(pairs)
print(scores)

FlagEmbeddingを使用する場合

from FlagEmbedding import FlagReranker

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

reranker = FlagReranker('antoinelouis/crossencoder-electra-base-french-mmarcoFR')
scores = reranker.compute_score(pairs)
print(scores)

HuggingFace Transformersを使用する場合

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

pairs = [('Question', 'Paragraphe 1'), ('Question', 'Paragraphe 2') , ('Question', 'Paragraphe 3')]

tokenizer = AutoTokenizer.from_pretrained('antoinelouis/crossencoder-electra-base-french-mmarcoFR')
model = AutoModelForSequenceClassification.from_pretrained('antoinelouis/crossencoder-electra-base-french-mmarcoFR')
model.eval()

with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)

📚 ドキュメント

評価

このモデルは、mMARCO-frの小規模開発セットで評価されています。このセットは6,980個のクエリから構成されており、ポジティブな文章とColBERTv2のハードネガティブを含む1000個の文章のアンサンブルをリランクする必要があります。平均逆順位（MRR）と様々なカットオフでのリコール（R@k）を報告しています。他のフランス語のニューラルリトリーバーとの比較を確認するには、DécouvrIRのリーダーボードを参照してください。

トレーニング

データ

msmarco-hard-negatives蒸留データセットを使用して、12の異なる密なリトリーバーから採掘されたより難しいネガティブをサンプリングします。最終的に、正負の比率が1（つまり、ペアの50％が関連し、50％が関連しない）の形式（クエリ、文章、関連性）の260万個のトレーニングトリプレットをサンプリングします。

実装

このモデルは、dbmdz/electra-base-french-europeana-cased-discriminatorのチェックポイントから初期化され、二値交差エントロピー損失（monoBERTのように）を介して最適化されます。AdamWオプティマイザーを使用して、バッチサイズ128、一定の学習率2e-5で、1台の80GB NVIDIA H100 GPUで20kステップ微調整されます。連結された質問 - 文章のペアの最大シーケンス長は256トークンに設定されています。シグモイド関数を使用して、0から1の間のスコアを取得します。

引用

@online{louis2024decouvrir,
	author    = 'Antoine Louis',
	title     = 'DécouvrIR: A Benchmark for Evaluating the Robustness of Information Retrieval Models in French',
	publisher = 'Hugging Face',
	month     = 'mar',
	year      = '2024',
	url       = 'https://huggingface.co/spaces/antoinelouis/decouvrir',
}

情報テーブル

属性	详情
パイプラインタグ	テキストランキング
言語	フランス語
ライセンス	MIT
データセット	unicamp-dl/mmarco
評価指標	リコール
タグ	パッセージリランキング
ライブラリ名	sentence-transformers
ベースモデル	dbmdz/electra-base-french-europeana-cased-discriminator
モデル名	crossencoder-electra-base-french-mmarcoFR

モデル指標

タスク	データセット	指標	値
テキスト分類（パッセージリランキング）	mMARCO-fr（unicamp-dl/mmarcoのフランス語版、検証セット）	Recall@500	95.11
テキスト分類（パッセージリランキング）	mMARCO-fr（unicamp-dl/mmarcoのフランス語版、検証セット）	Recall@100	82.72
テキスト分類（パッセージリランキング）	mMARCO-fr（unicamp-dl/mmarcoのフランス語版、検証セット）	Recall@10	56.03
テキスト分類（パッセージリランキング）	mMARCO-fr（unicamp-dl/mmarcoのフランス語版、検証セット）	MRR@10	31.7