ms-marco-electra-baseオープンソースモデル - 段落の並び順を最適化し、クエリ段落の関連性を正確に評価

ホーム

Ms Marco Electra Base

cross-encoderによって開発

ELECTRA-baseアーキテクチャでトレーニングされたクロスエンコーダーで、MS Marcoパッセージランキングタスクに最適化されており、情報検索におけるクエリとパッセージの関連性スコアリングに使用されます。

テキスト埋め込み

Transformers

英語オープンソースライセンス:Apache-2.0 #情報検索の再ランキング #高精度パッセージソート #英語の意味的マッチング

ダウンロード数 118.93k

リリース時間 : 3/2/2022

モデル概要

このモデルは情報検索シナリオで使用され、クエリと候補パッセージの関連性をスコアリングでき、検索エンジンの結果再ランキングタスクに適しています。

モデル特徴

効率的な再ランキング

情報検索シナリオ向けに設計されており、初期検索結果を正確に再ランキングできます

ELECTRAアーキテクチャの利点

ELECTRAの置換トークン検出事前トレーニング方式を採用しており、従来のBERTよりも効率的です

MS Marco最適化

MS Marcoパッセージランキングデータセットで特別にトレーニングされており、実際の検索シナリオに適応しています

モデル能力

クエリ-パッセージ関連性スコアリング

検索結果の再ランキング

情報検索の最適化

使用事例

検索エンジン最適化

検索結果の再ランキング

ElasticSearchなどの検索エンジンの初期結果を関連性で再ランキングします

MS Marco開発セットで36.41 MRR@10を達成

質問応答システム

回答パッセージのランキング

質問応答システムで候補回答パッセージを関連性でソートします

TREC DL 2019で71.99 NDCG@10を達成

🚀 MS Marco用クロスエンコーダ

このモデルは、MS Marco Passage Rankingタスクで学習されました。

このモデルは情報検索に使用できます。クエリが与えられた場合、そのクエリとすべての可能なパッセージ（例えばElasticSearchで検索されたもの）をエンコードし、パッセージを降順に並べ替えます。詳細については、SBERT.net Retrieve & Re-rankを参照してください。学習コードはこちらで入手できます: SBERT.net Training MS Marco

🚀 クイックスタート

✨ 主な機能

このモデルは、MS Marco Passage Rankingタスクで学習され、情報検索に使用できます。与えられたクエリに対して、可能なパッセージをエンコードし、降順に並べ替えることができます。

📦 インストール

このモデルを使用するには、SentenceTransformersをインストールする必要があります。

💻 使用例

基本的な使用法

SentenceTransformersを使用した場合 SentenceTransformersをインストールすると、簡単に使用できます。事前学習済みモデルは次のように使用できます。

from sentence_transformers import CrossEncoder

model = CrossEncoder('cross-encoder/ms-marco-electra-base')
scores = model.predict([
    ("How many people live in Berlin?", "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers."),
    ("How many people live in Berlin?", "Berlin is well known for its museums."),
])
print(scores)
# [9.9227107e-01 2.0136760e-05]

Transformersを使用した場合

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

📚 詳細ドキュメント

モデルの性能

以下の表に、様々な事前学習済みクロスエンコーダと、TREC Deep Learning 2019およびMS Marco Passage Rerankingデータセットでの性能を示します。

Property	Details
モデルタイプ	クロスエンコーダ
訓練データ	sentence-transformers/msmarco
ベースモデル	google/electra-base-discriminator
パイプラインタグ	テキストランキング
ライブラリ名	sentence-transformers
タグ	transformers

モデル名	NDCG@10 (TREC DL 19)	MRR@10 (MS Marco Dev)	ドキュメント/秒
Version 2モデル
cross-encoder/ms-marco-TinyBERT-L-2-v2	69.84	32.56	9000
cross-encoder/ms-marco-MiniLM-L-2-v2	71.01	34.85	4100
cross-encoder/ms-marco-MiniLM-L-4-v2	73.04	37.70	2500
cross-encoder/ms-marco-MiniLM-L-6-v2	74.30	39.01	1800
cross-encoder/ms-marco-MiniLM-L-12-v2	74.31	39.02	960
Version 1モデル
cross-encoder/ms-marco-TinyBERT-L-2	67.43	30.15	9000
cross-encoder/ms-marco-TinyBERT-L-4	68.09	34.50	2900
cross-encoder/ms-marco-TinyBERT-L-6	69.57	36.13	680
cross-encoder/ms-marco-electra-base	71.99	36.41	340
その他のモデル
nboost/pt-tinybert-msmarco	63.63	28.80	2900
nboost/pt-bert-base-uncased-msmarco	70.94	34.75	340
nboost/pt-bert-large-msmarco	73.36	36.48	100
Capreolus/electra-base-msmarco	71.23	36.89	340
amberoad/bert-multilingual-passage-reranking-msmarco	68.40	35.54	330
sebastian-hofstaetter/distilbert-cat-margin_mse-T2-msmarco	72.82	37.88	720