spar - wiki - bm25 - lexmodel - query - encoderオープンソース検索モデル - BM25を模倣してウィキペディア記事を検索する超実用的なもの

ホーム

Spar Wiki Bm25 Lexmodel Query Encoder

facebookによって開発

BERT-baseアーキテクチャに基づく高密度検索器で、ウィキペディア記事で訓練され、BM25の動作を模倣することを目的としています

テキスト埋め込み

Transformers

#高密度検索 #BM25模倣 #語彙マッチング強化

ダウンロード数 80

リリース時間 : 9/21/2022

モデル概要

このモデルはSPAR論文で提案された語彙モデル(Λ)のクエリエンコーダ部分で、コンテキストエンコーダと組み合わせて使用することで、スパース検索器BM25と同様の効果を実現できます。モデルは語彙マッチングパターンを学習でき、標準的な高密度検索器と組み合わせて検索性能を向上させることができます。

モデル特徴

BM25動作模倣

従来のBM25スパース検索器の動作を模倣するように訓練され、語彙マッチングの利点を保持します

高密度検索器との相補性

DPRなどの高密度検索器と組み合わせることができ、語彙と意味的マッチング能力を同時に備えています

BERT-baseアーキテクチャ

広く使用されているBERT-baseアーキテクチャに基づいており、既存システムへの統合が容易です

モデル能力

テキスト埋め込み生成

語彙特徴抽出

ドキュメント検索

質問応答システムサポート

使用事例

情報検索

オープンドメイン質問応答

質問応答システムの構築に使用され、大規模なドキュメントから関連する回答を検索します

DPRと組み合わせて使用すると、語彙と意味的マッチング信号を同時に捕捉できます

ドキュメント検索

検索エンジンやナレッジベースでの関連ドキュメント検索に使用されます

BM25の動作を模倣し、従来の検索システムの利点を保持します

🚀 特徴抽出モデル

このモデルは、SPAR論文のWiki BM25 Lexical Model (Λ) のクエリエンコーダです。 SPAR論文は、文書から重要な語句を抽出し、それを用いて密なベクトル表現を生成することで、疎な検索器の振る舞いを模倣する手法を提案しています。

🚀 クイックスタート

論文情報

このモデルに関連する論文は以下の通りです。 Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
Meta AI

関連するGitHubリポジトリはこちらです: https://github.com/facebookresearch/dpr-scale/tree/main/spar

モデル概要

このモデルは、Wikipedia記事で訓練されたBERT-baseサイズの密な検索器で、BM25の振る舞いを模倣するように設計されています。以下のモデルも利用可能です。

Property	Details
事前学習モデル	コーパス
Wiki BM25 Λ	Wikipedia
PAQ BM25 Λ	PAQ
MARCO BM25 Λ	MS MARCO
MARCO UniCOIL Λ	MS MARCO

💻 使用例

基本的な使用法

このモデルは、DPR モデルと同様に、関連するコンテキストエンコーダと一緒に使用する必要があります。

import torch
from transformers import AutoTokenizer, AutoModel

# クエリとコンテキストエンコーダのトークナイザは同じです
tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# トークナイザを適用
query_input = tokenizer(query, return_tensors='pt')
ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')

# 埋め込みを計算: [CLS]トークンの最後のレイヤーの隠れ状態を取得
query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# ドット積を使用して類似度スコアを計算
score1 = query_emb @ ctx_emb[0]  # 341.3268
score2 = query_emb @ ctx_emb[1]  # 340.1626

高度な使用法

Λは疎な教師検索器から語彙マッチングを学習するため、標準的な密な検索器（例: DPR, Contriever）と組み合わせて、語彙マッチングと意味マッチングの両方に優れた密な検索器を構築することができます。

以下の例では、DPRとWiki BM25 Λの埋め込みを連結することで、オープンドメイン質問応答のためのSPAR-Wikiモデルを構築する方法を示します。

import torch
from transformers import AutoTokenizer, AutoModel
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

# DPRモデル
dpr_ctx_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_ctx_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_query_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
dpr_query_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")

# Wiki BM25 Λモデル
lexmodel_tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# DPRの埋め込みを計算
dpr_query_input = dpr_query_tokenizer(query, return_tensors='pt')['input_ids']
dpr_query_emb = dpr_query_encoder(dpr_query_input).pooler_output
dpr_ctx_input = dpr_ctx_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
dpr_ctx_emb = dpr_ctx_encoder(**dpr_ctx_input).pooler_output

# Λの埋め込みを計算
lexmodel_query_input = lexmodel_tokenizer(query, return_tensors='pt')
lexmodel_query_emb = lexmodel_query_encoder(**query_input).last_hidden_state[:, 0, :]
lexmodel_ctx_input = lexmodel_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
lexmodel_ctx_emb = lexmodel_context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 連結によってSPARの埋め込みを形成

# 連結重みはクエリの埋め込みにのみ適用されます
# 詳細はSPAR論文を参照してください
concat_weight = 0.7

spar_query_emb = torch.cat(
    [dpr_query_emb, concat_weight * lexmodel_query_emb],
    dim=-1,
    )
spar_ctx_emb = torch.cat(
    [dpr_ctx_emb, lexmodel_ctx_emb],
    dim=-1,
)

# 類似度スコアを計算
score1 = spar_query_emb @ spar_ctx_emb[0]  # 317.6931
score2 = spar_query_emb @ spar_ctx_emb[1]  # 314.6144