ms - marco - MiniLM - L6 - v2オープンソースモデル - 情報検索クエリと段落の関連性スコアリングを効率的に実現

ホーム

Ms Marco MiniLM L6 V2

cross-encoderによって開発

MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #情報検索の再ランキング #高精度パッセージソート #英語質問応答システム

ダウンロード数 2.5M

リリース時間 : 3/2/2022

モデル概要

このモデルは情報検索タスク専用に設計されており、クエリとパッセージの関連性をスコアリングでき、検索エンジン結果の再ランキングに適しています

モデル特徴

効率的な関連性スコアリング

クエリとパッセージの関連性スコアを迅速に計算でき、大規模情報検索シナリオに適しています

多サイズモデル選択

TinyBERTからMiniLM-L12まで様々なサイズのモデルを提供し、性能と効率のバランスを取ります

ElasticSearchとの統合

ElasticSearchなどの検索システムと連携して使用するように設計されており、検索-再ランキングプロセスを実現します

モデル能力

クエリ-パッセージ関連性スコアリング

情報検索結果の再ランキング

テキストペア分類

使用事例

検索エンジン最適化

検索結果の再ランキング

初期検索結果を関連性で再ランキングし、検索結果の品質を向上させます

MS MarcoデータセットでMRR@10が39.02を達成

質問応答システム

回答パッセージ選択

候補回答パッセージから質問に最も関連性の高いパッセージを選択します

🚀 MS Marco用クロスエンコーダ

このモデルは、MS Marco Passage Rankingタスクで学習されました。

このモデルは情報検索に使用できます。クエリが与えられた場合、すべての可能なパッセージ（例えば、ElasticSearchで検索されたもの）とともにクエリをエンコードし、パッセージを降順にソートします。詳細については、SBERT.net Retrieve & Re-rankを参照してください。学習コードはこちらにあります: SBERT.net Training MS Marco

🚀 クイックスタート

✨ 主な機能

このモデルは、情報検索タスクに特化しており、クエリとパッセージの関連性を評価し、パッセージをランキング付けすることができます。

📦 インストール

このモデルを使用するには、SentenceTransformersをインストールする必要があります。

💻 使用例

基本的な使用法

from sentence_transformers import CrossEncoder

model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L6-v2')
scores = model.predict([
    ("How many people live in Berlin?", "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers."),
    ("How many people live in Berlin?", "Berlin is well known for its museums."),
])
print(scores)
# [ 8.607138 -4.320078]

高度な使用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('cross-encoder/ms-marco-MiniLM-L6-v2')
tokenizer = AutoTokenizer.from_pretrained('cross-encoder/ms-marco-MiniLM-L6-v2')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

🔧 技術詳細

このモデルは、MS Marco Passage Rankingタスクで学習されており、クエリとパッセージの関連性を評価するために使用されます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

その他の情報

プロパティ	詳細
モデルタイプ	クロスエンコーダ
学習データ	sentence-transformers/msmarco
ベースモデル	cross-encoder/ms-marco-MiniLM-L12-v2
パイプラインタグ	テキストランキング
ライブラリ名	sentence-transformers
タグ	transformers

パフォーマンス

次の表では、様々な事前学習済みのクロスエンコーダと、TREC Deep Learning 2019およびMS Marco Passage Rerankingデータセットでのパフォーマンスを提供しています。

モデル名	NDCG@10 (TREC DL 19)	MRR@10 (MS Marco Dev)	ドキュメント/秒
バージョン2モデル
cross-encoder/ms-marco-TinyBERT-L2-v2	69.84	32.56	9000
cross-encoder/ms-marco-MiniLM-L2-v2	71.01	34.85	4100
cross-encoder/ms-marco-MiniLM-L4-v2	73.04	37.70	2500
cross-encoder/ms-marco-MiniLM-L6-v2	74.30	39.01	1800
cross-encoder/ms-marco-MiniLM-L12-v2	74.31	39.02	960
バージョン1モデル
cross-encoder/ms-marco-TinyBERT-L2	67.43	30.15	9000
cross-encoder/ms-marco-TinyBERT-L4	68.09	34.50	2900
cross-encoder/ms-marco-TinyBERT-L6	69.57	36.13	680
cross-encoder/ms-marco-electra-base	71.99	36.41	340
その他のモデル
nboost/pt-tinybert-msmarco	63.63	28.80	2900
nboost/pt-bert-base-uncased-msmarco	70.94	34.75	340
nboost/pt-bert-large-msmarco	73.36	36.48	100
Capreolus/electra-base-msmarco	71.23	36.89	340
amberoad/bert-multilingual-passage-reranking-msmarco	68.40	35.54	330
sebastian-hofstaetter/distilbert-cat-margin_mse-T2-msmarco	72.82	37.88	720