ms-marco-TinyBERT-L4オープンソース情報検索モデル - 正確な段落の並べ替えによる情報検索の最適化

ホーム

Ms Marco TinyBERT L4

cross-encoderによって開発

TinyBERTアーキテクチャに基づいて最適化された情報検索モデルで、MS Marco段落ランキングタスク用に訓練されています。

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #情報検索の再ランキング #高効率で軽量 #段落の関連性スコアリング

ダウンロード数 380

リリース時間 : 3/2/2022

モデル概要

このモデルは情報検索シーンに使用され、クエリ文と候補段落を結合エンコードして関連性スコアを計算し、検索エンジンの結果の再ランキングに適しています。

モデル特徴

高効率で軽量

TinyBERTアーキテクチャに基づいており、高い性能を維持しながら処理速度を大幅に向上させます。

専門的な訓練

MS Marco段落ランキングタスク用に最適化されており、情報検索シーンで優れた性能を発揮します。

双フレームワークサポート

TransformersとSentenceTransformersの2種類の呼び出し方式をサポートしています。

モデル能力

クエリ-段落の関連性スコアリング

検索結果の再ランキング

情報検索の最適化

使用事例

検索エンジンの最適化

検索結果の再ランキング

初期検索結果を関連性で再ランキングします。

MS MarcoデータセットでMRR@10が34.50に達しました。

質問応答システム

回答段落の選別

候補回答から最も関連性の高い段落を選別します。

🚀 MS Marco用クロスエンコーダ

このモデルは、MS Marco段落ランキングタスクで訓練されています。

このモデルは情報検索に使用できます。具体的には、クエリが与えられると、そのクエリとすべての可能性のある段落（例えばElasticSearchで検索された段落）をエンコードし、段落を降順に並べ替えます。詳細については、SBERT.netの検索と再ランキングを参照してください。訓練コードはこちらで入手できます：SBERT.netのMS Marco訓練。

🚀 クイックスタート

✨ 主な機能

特定のMS Marcoタスクを基に訓練されており、情報検索シーンに適しています。
transformersとSentenceTransformersライブラリと組み合わせて使用でき、使い方が柔軟です。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。transformersとSentenceTransformersライブラリの公式インストールガイドを参照してインストールしてください。

💻 使用例

基本的な使用法

transformersライブラリを使用してモデルを呼び出す例：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('cross-encoder/ms-marco-TinyBERT-L4')
tokenizer = AutoTokenizer.from_pretrained('cross-encoder/ms-marco-TinyBERT-L4')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

高度な使用法

SentenceTransformersライブラリをインストールすると、より簡単に使用できます：

from sentence_transformers import CrossEncoder

model = CrossEncoder('cross-encoder/ms-marco-TinyBERT-L4', max_length=512)
scores = model.predict([('Query', 'Paragraph1'), ('Query', 'Paragraph2') , ('Query', 'Paragraph3')])

📚 ドキュメント

属性	詳細
モデルタイプ	MS Marco用クロスエンコーダ
訓練データ	sentence-transformers/msmarco
ベースモデル	nreimers/TinyBERT_L-4_H-312_v2
タスクタイプ	テキストランキング
ライブラリ名	sentence-transformers
ラベル	transformers

🔧 技術詳細

このモデルはMS Marco段落ランキングタスクで訓練され、情報検索に使用できます。クエリと段落をエンコードし、段落を降順に並べ替えることで、効果的な情報検索を実現します。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

📦 性能表現

以下の表では、様々な事前訓練されたクロスエンコーダと、それらがTRECディープラーニング2019およびMS Marco段落再ランキングデータセットでの性能表現を提供しています。

モデル名	TREC DL 19のNDCG@10	MS Marco DevのMRR@10	1秒あたりの処理文書数
バージョン2モデル
cross-encoder/ms-marco-TinyBERT-L2-v2	69.84	32.56	9000
cross-encoder/ms-marco-MiniLM-L2-v2	71.01	34.85	4100
cross-encoder/ms-marco-MiniLM-L4-v2	73.04	37.70	2500
cross-encoder/ms-marco-MiniLM-L6-v2	74.30	39.01	1800
cross-encoder/ms-marco-MiniLM-L12-v2	74.31	39.02	960
バージョン1モデル
cross-encoder/ms-marco-TinyBERT-L2	67.43	30.15	9000
cross-encoder/ms-marco-TinyBERT-L4	68.09	34.50	2900
cross-encoder/ms-marco-TinyBERT-L6	69.57	36.13	680
cross-encoder/ms-marco-electra-base	71.99	36.41	340
その他のモデル
nboost/pt-tinybert-msmarco	63.63	28.80	2900
nboost/pt-bert-base-uncased-msmarco	70.94	34.75	340
nboost/pt-bert-large-msmarco	73.36	36.48	100
Capreolus/electra-base-msmarco	71.23	36.89	340
amberoad/bert-multilingual-passage-reranking-msmarco	68.40	35.54	330
sebastian-hofstaetter/distilbert-cat-margin_mse-T2-msmarco	72.82	37.88	720