cotmae_base_msmarco_rerankerオープンソースモデル - 密集段落検索性能を向上させる無料の再ランキングツール

ホーム

Cotmae Base Msmarco Reranker

caskcsgによって開発

CoT-MAEアーキテクチャに基づいて訓練されたMS-Marcoパッセージ再ランキングモデルで、高密度パッセージ検索性能を向上させるために使用されます

テキスト埋め込み

Transformers

#高密度パッセージ検索 #マスク自動エンコーディング #パッセージ再ランキング

ダウンロード数 16

リリース時間 : 10/28/2022

モデル概要

このモデルは、CoT-MAE（コンテキストマスク自動エンコーダ）アーキテクチャに基づいて訓練されたパッセージ再ランキングモデルで、MS-Marcoデータセット内のパッセージ検索結果を再ランキングし、検索品質を向上させるために特別に設計されています。

モデル特徴

CoT-MAEアーキテクチャベース

コンテキストマスク自動エンコーダの事前訓練アーキテクチャを採用し、高密度パッセージ検索に最適化されています

困難なネガティブサンプルマイニング

CoT-MAE検索器を使用してMS-Marcoの困難なネガティブサンプルをマイニングし、訓練に使用します

高性能再ランキング

MS-Marcoパッセージフルランキングタスクで優れた性能を発揮し、MRR@10は0.43884を達成しました

モデル能力

文類似性計算

パッセージ再ランキング

高密度パッセージ検索

使用事例

情報検索

検索エンジン結果の再ランキング

検索エンジンが返すパッセージ結果を再ランキングして関連性を向上させます

MRR@10は0.43884、recall@200は0.956734を達成しました

質問応答システム

質問応答システムで候補となる回答パッセージを関連性に基づいてランキングします

🚀 CoT-MAE MS-Marco Passage Reranker

CoT-MAEは、密なパッセージ検索のために設計された、Transformerベースのマスクオートエンコーダ事前学習アーキテクチャです。 CoT-MAE MS-Marco Passage Reranker は、CoT-MAEリトリーバーで採掘されたMS-Marcoの難しいネガティブ事例を使用して、Tevatronツールキットで学習されたリランカーです。

詳細は、当社の論文とコードを参照してください。

論文: ConTextual Mask Auto-Encoder for Dense Passage Retrieval

コード: caskcsg/ir/cotmae

🚀 クイックスタート

このリポジトリでは、CoT-MAE MS-Marco Passage Rerankerに関する情報を提供しています。このリランカーは、密なパッセージ検索のために設計されたCoT-MAEアーキテクチャを利用しています。

✨ 主な機能

CoT-MAEというTransformerベースのMask Auto-Encoder事前学習アーキテクチャを利用。
MS-Marcoの難しいネガティブ事例を用いて学習されたリランカー。

📚 ドキュメント

スコア

MS-Marco Passage full-ranking + top-200 rerank

まず、CoT-MAE MS-Marco Passage Retriever (cotmae_base_msmarco_retrieverと命名) を使用して検索を行い、次にリランカーを使用して上位200件の検索結果を再スコアリングします。性能は以下の通りです。

MRR @10	recall@1	recall@50	recall@200	QueriesRanked
0.43884	0.304871	0.903582	0.956734	6980

引用

もし当社の研究が役に立った場合は、論文を引用してください。

@misc{https://doi.org/10.48550/arxiv.2208.07670,
  doi = {10.48550/ARXIV.2208.07670},
  url = {https://arxiv.org/abs/2208.07670},
  author = {Wu, Xing and Ma, Guangyuan and Lin, Meng and Lin, Zijia and Wang, Zhongyuan and Hu, Songlin},
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {ConTextual Mask Auto-Encoder for Dense Passage Retrieval},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}