ms - marco - MiniLM - L2 - v2オープンソースモデル - 情報検索におけるクエリと段落の関連性評価をサポート

ホーム

Ms Marco MiniLM L2 V2

cross-encoderによって開発

MS Marco段落ランキングタスクで訓練されたクロスエンコーダモデルで、情報検索におけるクエリ-段落関連性スコアリングに使用されます。

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #情報検索ランキング #高精度リランキング #英語意味マッチング

ダウンロード数 533.42k

リリース時間 : 3/2/2022

モデル概要

このモデルは情報検索タスク専用に設計されており、クエリと段落の関連性をスコアリングでき、検索エンジンのリランキング段階に適しています。

モデル特徴

効率的なリランキング

情報検索のリランキング段階に最適化されており、クエリと段落の関連性を迅速に評価できます。

マルチサイズ選択

TinyBERTからMiniLM-L12まで、さまざまなサイズのモデルバリアントを提供し、異なる性能ニーズに対応します。

高性能

TREC深層学習2019およびMS Marco段落リランキングデータセットで優れたパフォーマンスを発揮します。

モデル能力

クエリ-段落関連性スコアリング

情報検索結果のリランキング

使用事例

検索エンジン最適化

検索結果のリランキング

初期検索結果を関連性で再ランキングし、検索結果の品質を向上させます

MS Marco開発セットでMRR@10が39.02を達成

質問応答システム

回答段落のフィルタリング

候補となる回答段落から最も関連性の高い結果を選別します

🚀 MS Marco用クロスエンコーダ

このモデルは、MS Marco段落ランキングタスクで訓練されています。

このモデルは情報検索に使用できます。クエリを指定すると、そのクエリとすべての可能な段落（例えば、ElasticSearchで検索された段落）をエンコードし、段落を降順に並べ替えます。詳細については、SBERT.net 検索と再ランキングを参照してください。訓練コードはこちらで入手できます：SBERT.net MS Marcoの訓練

🚀 クイックスタート

✨ 主な機能

このモデルはクロスエンコーダアーキテクチャに基づいており、MS Marco段落ランキングタスクで訓練されているため、情報検索シナリオに効果的に使用できます。
SentenceTransformersとTransformersライブラリを使用した呼び出しをサポートしており、使いやすいです。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていませんが、以下を参考にできます。このモデルを使用するには、sentence-transformersまたはtransformersライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install sentence-transformers

または

pip install transformers

💻 使用例

基本的な使用法

SentenceTransformersライブラリを使用してモデルを呼び出す例：

from sentence_transformers import CrossEncoder

model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L2-v2')
scores = model.predict([
    ("How many people live in Berlin?", "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers."),
    ("How many people live in Berlin?", "Berlin is well known for its museums."),
])
print(scores)
# [ 8.510401 -4.860082]

高度な使用法

Transformersライブラリを使用してモデルを呼び出す例：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('cross-encoder/ms-marco-MiniLM-L2-v2')
tokenizer = AutoTokenizer.from_pretrained('cross-encoder/ms-marco-MiniLM-L2-v2')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

📚 ドキュメント

モデルの性能

以下の表は、さまざまな事前学習済みクロスエンコーダと、それらが TRECディープラーニング2019 および MS Marco段落再ランキングデータセットでの性能を示しています。

モデル名	TREC DL 19のNDCG@10	MS Marco DevのMRR@10	1秒あたりの処理文書数
バージョン2モデル
cross-encoder/ms-marco-TinyBERT-L2-v2	69.84	32.56	9000
cross-encoder/ms-marco-MiniLM-L2-v2	71.01	34.85	4100
cross-encoder/ms-marco-MiniLM-L4-v2	73.04	37.70	2500
cross-encoder/ms-marco-MiniLM-L6-v2	74.30	39.01	1800
cross-encoder/ms-marco-MiniLM-L12-v2	74.31	39.02	960
バージョン1モデル
cross-encoder/ms-marco-TinyBERT-L2	67.43	30.15	9000
cross-encoder/ms-marco-TinyBERT-L4	68.09	34.50	2900
cross-encoder/ms-marco-TinyBERT-L6	69.57	36.13	680
cross-encoder/ms-marco-electra-base	71.99	36.41	340
その他のモデル
nboost/pt-tinybert-msmarco	63.63	28.80	2900
nboost/pt-bert-base-uncased-msmarco	70.94	34.75	340
nboost/pt-bert-large-msmarco	73.36	36.48	100
Capreolus/electra-base-msmarco	71.23	36.89	340
amberoad/bert-multilingual-passage-reranking-msmarco	68.40	35.54	330
sebastian-hofstaetter/distilbert-cat-margin_mse-T2-msmarco	72.82	37.88	720