spar-wiki-bm25-lexmodel-context-encoderオープンソースの稠密検索器 - ウィキペディアを基に訓練した高精度な情報検索

ホーム

Spar Wiki Bm25 Lexmodel Context Encoder

facebookによって開発

BERT-baseアーキテクチャに基づく高密度検索器で、Wikipedia記事で訓練されBM25の動作を模倣

テキスト埋め込み

Transformers

#高密度検索器 #BM25模倣 #オープンドメイン質問応答

ダウンロード数 68

リリース時間 : 9/21/2022

モデル概要

このモデルはSPAR論文のWiki BM25語彙モデル（Λ）のコンテキストエンコーダで、高密度検索タスクに使用され、スパース検索器BM25の動作を模倣できます。

モデル特徴

BM25動作の模倣

Wikipedia記事で訓練され、スパース検索器BM25の動作を模倣可能

クエリエンコーダとの併用

対応するクエリエンコーダと併用する必要があり、DPRモデルと類似

高密度検索器との結合

標準的な高密度検索器（DPR、Contrieverなど）と結合可能で、語彙と意味マッチングの両方に優れた高密度検索器を構築

モデル能力

特徴抽出

高密度検索

語彙マッチング

使用事例

オープンドメイン質問応答

Wikipedia情報検索

Wikipedia記事からクエリに関連する情報を検索するために使用

BM25の動作を効果的に模倣し、正確な検索結果を提供

情報検索

DPRとの併用

DPRモデルと結合し、語彙と意味マッチングの両方に優れた高密度検索器を構築

検索性能を向上させ、語彙と意味マッチングの利点を結合

🚀 特徴抽出モデル

このモデルは、SPAR論文におけるWiki BM25 Lexical Model (Λ) のコンテキストエンコーダです。

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
Meta AI

関連するGitHubリポジトリはこちらです: https://github.com/facebookresearch/dpr-scale/tree/main/spar

このモデルは、Wikipedia記事で学習されたBERTベースサイズの密ベクトル検索器で、BM25の振る舞いを模倣するように訓練されています。以下のモデルも利用可能です:

事前学習モデル	コーパス	教師モデル	アーキテクチャ	クエリエンコーダパス	コンテキストエンコーダパス
Wiki BM25 Λ	Wikipedia	BM25	BERT-base	facebook/spar-wiki-bm25-lexmodel-query-encoder	facebook/spar-wiki-bm25-lexmodel-context-encoder
PAQ BM25 Λ	PAQ	BM25	BERT-base	facebook/spar-paq-bm25-lexmodel-query-encoder	facebook/spar-paq-bm25-lexmodel-context-encoder
MARCO BM25 Λ	MS MARCO	BM25	BERT-base	facebook/spar-marco-bm25-lexmodel-query-encoder	facebook/spar-marco-bm25-lexmodel-context-encoder
MARCO UniCOIL Λ	MS MARCO	UniCOIL	BERT-base	facebook/spar-marco-unicoil-lexmodel-query-encoder	facebook/spar-marco-unicoil-lexmodel-context-encoder

🚀 クイックスタート

単独でのLexical Model (Λ) の使用

このモデルは、関連するクエリエンコーダと一緒に使用する必要があります。これは DPR モデルと同様です。

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModel

# The tokenizer is the same for the query and context encoder
tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# Apply tokenizer
query_input = tokenizer(query, return_tensors='pt')
ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')

# Compute embeddings: take the last-layer hidden state of the [CLS] token
query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# Compute similarity scores using dot product
score1 = query_emb @ ctx_emb[0]  # 341.3268
score2 = query_emb @ ctx_emb[1]  # 340.1626

高度な使用法

SPARのようにベースの密ベクトル検索器とLexical Model (Λ) を組み合わせて使用する

Λは、疎な教師検索器から語彙マッチングを学習するため、標準的な密ベクトル検索器（例えば DPR、Contriever）と組み合わせて、語彙マッチングと意味マッチングの両方に優れた密ベクトル検索器を構築することができます。

以下の例では、DPRとWiki BM25 Λの埋め込みを連結することで、オープンドメイン質問応答用のSPAR-Wikiモデルを構築する方法を示します。

import torch
from transformers import AutoTokenizer, AutoModel
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

# DPR model
dpr_ctx_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_ctx_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_query_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
dpr_query_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")

# Wiki BM25 Λ model
lexmodel_tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# Compute DPR embeddings
dpr_query_input = dpr_query_tokenizer(query, return_tensors='pt')['input_ids']
dpr_query_emb = dpr_query_encoder(dpr_query_input).pooler_output
dpr_ctx_input = dpr_ctx_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
dpr_ctx_emb = dpr_ctx_encoder(**dpr_ctx_input).pooler_output

# Compute Λ embeddings
lexmodel_query_input = lexmodel_tokenizer(query, return_tensors='pt')
lexmodel_query_emb = lexmodel_query_encoder(**query_input).last_hidden_state[:, 0, :]
lexmodel_ctx_input = lexmodel_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
lexmodel_ctx_emb = lexmodel_context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# Form SPAR embeddings via concatenation

# The concatenation weight is only applied to query embeddings
# Refer to the SPAR paper for details
concat_weight = 0.7

spar_query_emb = torch.cat(
    [dpr_query_emb, concat_weight * lexmodel_query_emb],
    dim=-1,
    )
spar_ctx_emb = torch.cat(
    [dpr_ctx_emb, lexmodel_ctx_emb],
    dim=-1,
)

# Compute similarity scores
score1 = spar_query_emb @ spar_ctx_emb[0]  # 317.6931
score2 = spar_query_emb @ spar_ctx_emb[1]  # 314.6144