BERTマルチリンガルパッセージリランキングMSMARCOオープンソースモデル - 100種以上の言語をサポートし、検索結果のランキングを最適化

ホーム

Bert Multilingual Passage Reranking Msmarco

amberoadによって開発

100種以上の言語をサポートする多言語段落再ランキングモデルで、検索エンジンの結果の関連性ランキングを改善するために使用されます。

テキスト埋め込み複数言語対応オープンソースライセンス:Apache-2.0 #多言語検索最適化 #段落関連性評点 #MSMARCO微調整

ダウンロード数 4,610

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づいており、クエリと段落の関連性スコアを計算するために使用され、検索エンジンの結果の質を大幅に向上させることができます。多言語処理をサポートし、グローバルな検索アプリケーションシナリオに適しています。

モデル特徴

多言語サポート

100種以上の言語をサポートし、主なヨーロッパとアジアの言語を含みます。

高い関連性向上

検索エンジンの結果の関連性を最大100％向上させることができます。

Elasticsearch統合

追加のコーディングなしでElasticsearchと直接統合できます。

効率的な推論

クエリごとに約300ミリ秒の処理速度で、リアルタイムアプリケーションに適しています。

モデル能力

多言語テキスト理解

クエリ - 段落関連性評点

検索結果再ランキング

異言語情報検索

使用事例

検索エンジン最適化

企業検索エンジンの改善

企業内の文書検索の関連性を改善するために使用されます。

関連性を最大100％向上させます。

電子商取引検索

電子商取引プラットフォームの商品検索の精度を向上させます。

ユーザーが関連商品を見つける効率を改善します。

多言語アプリケーション

グローバルなコンテンツ検索

多言語ウェブサイトに統一的な検索ソリューションを提供します。

100種以上の言語の検索結果を最適化します。

🚀 パッセージ再ランキングマルチリンガルBERT 🔃 🌍

このモデルは、100以上の言語をサポートするパッセージ再ランキング用のマルチリンガルBERTです。検索クエリとパッセージのマッチング度を計算し、Elasticsearchの結果を改善することができます。

✨ 主な機能

多言語対応：100以上の言語をサポートします。詳細はサポート言語のリストを参照してください。
パッセージ再ランキング：検索クエリとパッセージを入力として、マッチング度を計算します。
Elasticsearchの結果改善：Elasticsearchの検索結果の関連性を最大100%向上させます。

📦 インストール

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")

model = AutoModelForSequenceClassification.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")

model = AutoModelForSequenceClassification.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco")

📚 ドキュメント

モデルの説明

入力：100以上の言語をサポートします。すべての利用可能な言語はサポート言語のリストを参照してください。

目的：このモジュールは、検索クエリ[1]とパッセージ[2]を受け取り、パッセージがクエリにマッチするかどうかを計算します。Elasticsearchの結果の改善に使用でき、関連性を最大100%向上させます。

アーキテクチャ：BERTの上には、768次元の[CLS]トークンを入力として受け取り、出力を提供する密結合ニューラルネットワークがあります(Arxiv)。

出力：-10から10の間の単一の値です。より良いマッチングのクエリとパッセージのペアは、より高いスコアを持つ傾向があります。

想定される使用法と制限

クエリ[1]とパッセージ[2]の両方が512トークンに収まる必要があります。通常、最初の数十件の検索結果を再ランキングすることを想定しているため、推論時間が約300ms/クエリであることに注意してください。

トレーニングデータ

このモデルは、Microsoft MS Marcoデータセットを使用してトレーニングされています。このトレーニングデータセットには、約4億のクエリ、関連パッセージ、非関連パッセージのタプルが含まれています。トレーニングと評価に使用されるすべてのデータセットは、この表にリストされています。トレーニングに使用されるデータセットはTrain Triples Largeと呼ばれ、評価はTop 1000 Devで行われまし。開発データセットには合計6,900のクエリがあり、各クエリはMS MARCOコーパスからBM25を使用して取得された上位1,000のパッセージにマッピングされています。

トレーニング手順

トレーニングは、このREADMEに記載されている方法と同じ方法で行われまし。彼らの優れた論文をArxivで確認してください。

私たちは、BERTモデルを英語のみのモデルから、GoogleのデフォルトのBERTマルチリンガルアンケースドモデルに変更しました。

トレーニングは400,000ステップで行われました。これはTPU V3-8で12時間に相当します。

評価結果

英語のBingクエリデータセットでは、英語のみのモデルとほぼ同じ性能が見られます。トレーニングデータは英語のみですが、非公開データでの内部テストでは、他のすべての利用可能なモデルよりもドイツ語でははるかに高い精度が得られました。

微調整済みモデル	評価セット	検索ブースト	GPUでの速度
`amberoad/Multilingual-uncased-MSMARCO` (このモデル)	bingクエリ	+61% _{^{(0.29 vs 0.18)}}	~300 ms/クエリ
`nboost/pt-tinybert-msmarco`	bingクエリ	+45% _{^{(0.26 vs 0.18)}}	~50ms/クエリ
`nboost/pt-bert-base-uncased-msmarco`	bingクエリ	+62% _{^{(0.29 vs 0.18)}}	~300 ms/クエリ
`nboost/pt-bert-large-msmarco`	bingクエリ	+77% _{^{(0.32 vs 0.18)}}	-
`nboost/pt-biobert-base-msmarco`	biomed	+66% _{^{(0.17 vs 0.10)}}	~300 ms/クエリ

この表はnboostから引用され、最初の行が追加されています。

🔧 技術詳細

このモデルは、BERTベースのマルチリンガルアンケースドモデルを使用しています。トレーニングにはMicrosoft MS Marcoデータセットが使用され、評価にはBingクエリデータセットが使用されています。モデルのアーキテクチャは、BERTの上に密結合ニューラルネットワークがあり、[CLS]トークンを入力として受け取り、出力を提供します。