🚀 パッセージ再ランキングマルチリンガルBERT 🔃 🌍
このモデルは、100以上の言語をサポートするパッセージ再ランキング用のマルチリンガルBERTです。検索クエリとパッセージのマッチング度を計算し、Elasticsearchの結果を改善することができます。
✨ 主な機能
多言語対応 :100以上の言語をサポートします。詳細はサポート言語のリスト を参照してください。
パッセージ再ランキング :検索クエリとパッセージを入力として、マッチング度を計算します。
Elasticsearchの結果改善 :Elasticsearchの検索結果の関連性を最大100%向上させます。
📦 インストール
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco" )
model = AutoModelForSequenceClassification.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco" )
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco" )
model = AutoModelForSequenceClassification.from_pretrained("amberoad/bert-multilingual-passage-reranking-msmarco" )
📚 ドキュメント
モデルの説明
入力 :100以上の言語をサポートします。すべての利用可能な言語はサポート言語のリスト を参照してください。
目的 :このモジュールは、検索クエリ[1]とパッセージ[2]を受け取り、パッセージがクエリにマッチするかどうかを計算します。Elasticsearchの結果の改善に使用でき、関連性を最大100%向上させます。
アーキテクチャ :BERTの上には、768次元の[CLS]トークンを入力として受け取り、出力を提供する密結合ニューラルネットワークがあります(Arxiv )。
出力 :-10から10の間の単一の値です。より良いマッチングのクエリとパッセージのペアは、より高いスコアを持つ傾向があります。
想定される使用法と制限
クエリ[1]とパッセージ[2]の両方が512トークンに収まる必要があります。通常、最初の数十件の検索結果を再ランキングすることを想定しているため、推論時間が約300ms/クエリであることに注意してください。
トレーニングデータ
このモデルは、Microsoft MS Marcoデータセット を使用してトレーニングされています。このトレーニングデータセットには、約4億のクエリ、関連パッセージ、非関連パッセージのタプルが含まれています。トレーニングと評価に使用されるすべてのデータセットは、この表 にリストされています。トレーニングに使用されるデータセットはTrain Triples Large と呼ばれ、評価はTop 1000 Dev で行われまし。開発データセットには合計6,900のクエリがあり、各クエリはMS MARCOコーパスからBM25を使用して取得された上位1,000のパッセージにマッピングされています。
トレーニング手順
トレーニングは、このREADME に記載されている方法と同じ方法で行われまし。彼らの優れた論文をArxiv で確認してください。
私たちは、BERTモデルを英語のみのモデルから、Google のデフォルトのBERTマルチリンガルアンケースドモデルに変更しました。
トレーニングは400,000ステップで行われました。これはTPU V3-8で12時間に相当します。
評価結果
英語のBingクエリデータセット では、英語のみのモデルとほぼ同じ性能が見られます。トレーニングデータは英語のみですが、非公開データでの内部テストでは、他のすべての利用可能なモデルよりもドイツ語でははるかに高い精度が得られました。
微調整済みモデル
依存関係
評価セット
検索ブースト
GPUでの速度
amberoad/Multilingual-uncased-MSMARCO
(このモデル)
bingクエリ
+61% (0.29 vs 0.18)
~300 ms/クエリ
nboost/pt-tinybert-msmarco
bingクエリ
+45% (0.26 vs 0.18)
~50ms/クエリ
nboost/pt-bert-base-uncased-msmarco
bingクエリ
+62% (0.29 vs 0.18)
~300 ms/クエリ
nboost/pt-bert-large-msmarco
bingクエリ
+77% (0.32 vs 0.18)
-
nboost/pt-biobert-base-msmarco
biomed
+66% (0.17 vs 0.10)
~300 ms/クエリ
この表はnboost から引用され、最初の行が追加されています。
🔧 技術詳細
このモデルは、BERTベースのマルチリンガルアンケースドモデルを使用しています。トレーニングにはMicrosoft MS Marcoデータセットが使用され、評価にはBingクエリデータセットが使用されています。モデルのアーキテクチャは、BERTの上に密結合ニューラルネットワークがあり、[CLS]トークンを入力として受け取り、出力を提供します。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。
連絡先情報
Amberoadは、検索とビジネスインテリジェンスに特化した会社です。
私たちはあなたに以下を提供します:
NLPを通じた高度な社内検索エンジン
外部検索エンジン: 競合他社、顧客、サプライヤーを見つける
私たちの専門知識を活用するために今すぐ連絡を取ってください:
トレーニングと評価は、Philipp Reissel とIgli Manaj によって行われました。
Linkedin | ホームページ | メール