msmarco - MiniLM - L6 - en - de - v1オープンソースモデル - 英語とドイツ語の段落再順序付けを無料でサポート

ホーム

Msmarco MiniLM L6 En De V1

cross-encoderによって開発

これは、英独語の段落再並べ替えタスクに適した言語間クロスエンコーダモデルで、MS Marcoの段落並べ替えタスクを基に訓練されています。

テキスト埋め込み

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #英独語間 #段落の再並べ替え #情報検索

ダウンロード数 2,784

リリース時間 : 3/2/2022

モデル概要

このモデルは、情報検索シーンにおける段落再並べ替えタスクに使用され、英語とドイツ語のバイリンガルクエリとドキュメントのマッチングをサポートします。

モデル特徴

言語間対応

英語とドイツ語のバイリンガルクエリとドキュメントのマッチングをサポートし、言語間の情報検索を実現します。

効率的な再並べ替え

BM25などの従来の検索方法の結果を最適化して並べ替え、検索品質を大幅に向上させます。

高性能

TREC - DL19やGermanDPRなどのベンチマークテストで優れた性能を発揮し、ベースラインモデルを上回ります。

モデル能力

英独語のテキストマッチング

検索結果の再並べ替え

言語間の情報検索

使用事例

情報検索

検索エンジン結果の最適化

従来の検索エンジンが返す結果を意味的に再並べ替えます。

TREC - DL19テストでNDCG@10が72.94に達します。

言語間のドキュメント検索

ドイツ語のクエリを使って英語のドキュメントを検索します。

TREC - DL19のドイツ語 - 英語テストでNDCG@10が66.07に達します。

🚀 MS MARCO用クロスエンコーダ - EN-DE

このモデルは、EN-DEのクロス言語クロスエンコーダで、パッセージの再ランキングに使用できます。MS Marco Passage Rankingタスクで学習されました。

このモデルは情報検索に使用できます。詳細はSBERT.net Retrieve & Re-rankを参照してください。

学習コードはこのリポジトリにあり、train_script.pyを参照してください。

🚀 クイックスタート

このクロス言語クロスエンコーダモデルは、パッセージの再ランキングに使用でき、MS Marco Passage Rankingタスクで学習されています。また、情報検索にも利用可能です。

✨ 主な機能

クロス言語のパッセージ再ランキングが可能。
情報検索に利用できる。
学習コードがリポジトリに公開されている。

📦 インストール

このモデルを使用するには、SentenceTransformersまたはtransformersライブラリをインストールする必要があります。

pip install sentence-transformers
pip install transformers

💻 使用例

基本的な使用法

SentenceTransformersを使用する場合

from sentence_transformers import CrossEncoder

model = CrossEncoder('model_name', max_length=512)

query = 'How many people live in Berlin?'
docs = ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.']
pairs = [(query, doc) for doc in docs]
scores = model.predict(pairs)

Transformersを使用する場合

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

📚 ドキュメント

パフォーマンス

このモデルのパフォーマンスは、3つのデータセットで評価されています。

モデル名	TREC-DL19 EN-EN	TREC-DL19 DE-EN	GermanDPR DE-DE	秒あたりのドキュメント数
BM25	45.46	-	35.85	-
クロスエンコーダ再ランキングモデル
cross-encoder/msmarco-MiniLM-L6-en-de-v1	72.43	65.53	46.77	1600
cross-encoder/msmarco-MiniLM-L12-en-de-v1	72.94	66.07	49.91	900
svalabs/cross-electra-ms-marco-german-uncased (DEのみ)	-	-	53.67	260
deepset/gbert-base-germandpr-reranking (DEのみ)	-	-	53.59	260
バイエンコーダ（再ランキング）
sentence-transformers/msmarco-distilbert-multilingual-en-de-v2-tmp-lng-aligned	63.38	58.28	37.88	940
sentence-transformers/msmarco-distilbert-multilingual-en-de-v2-tmp-trained-scratch	65.51	58.69	38.32	940
svalabs/bi-electra-ms-marco-german-uncased (DEのみ)	-	-	34.31	450
deepset/gbert-base-germandpr-question_encoder (DEのみ)	-	-	42.55	450