spar-wiki-bm25-lexmodel-query-encoder開源檢索模型 - 模仿BM25檢索維基百科文章超實用

首頁

Spar Wiki Bm25 Lexmodel Query Encoder

由facebook開發

基於BERT-base架構的密集檢索器，在維基百科文章上訓練，旨在模仿BM25的行為

文本嵌入

Transformers

#密集檢索 #BM25模仿 #詞彙匹配增強

下載量 80

發布時間 : 9/21/2022

模型概述

該模型是SPAR論文中提出的詞彙模型(Λ)的查詢編碼器部分，通過與上下文編碼器配合使用，可以實現類似稀疏檢索器BM25的效果。模型能夠學習詞彙匹配模式，可與標準密集檢索器結合使用以提升檢索性能。

模型特點

BM25行為模仿

通過訓練模仿傳統BM25稀疏檢索器的行為，保留詞彙匹配優勢

與密集檢索器互補

可與DPR等密集檢索器結合，同時具備詞彙和語義匹配能力

BERT-base架構

基於廣泛使用的BERT-base架構，便於集成到現有系統中

模型能力

文本嵌入生成

詞彙特徵提取

文檔檢索

問答系統支持

使用案例

信息檢索

開放域問答

用於構建問答系統，從大規模文檔中檢索相關答案

結合DPR使用時能同時捕捉詞彙和語義匹配信號

文檔檢索

用於搜索引擎或知識庫中的相關文檔檢索

模仿BM25行為，保留傳統檢索系統的優勢

🚀 Wiki BM25 Lexical Model (Λ) 查詢編碼器

該模型是SPAR論文中Wiki BM25 Lexical Model (Λ) 的查詢編碼器，可用於特徵提取，有效模仿BM25的行為，提升信息檢索的效果。

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
Meta AI

相關的GitHub倉庫鏈接：https://github.com/facebookresearch/dpr-scale/tree/main/spar

🚀 快速開始

此模型是一個BERT-base大小的密集檢索器，在維基百科文章上進行訓練，以模仿BM25的行為。以下是可用的預訓練模型：

預訓練模型	語料庫	教師模型	架構	查詢編碼器路徑	上下文編碼器路徑
Wiki BM25 Λ	維基百科	BM25	BERT-base	facebook/spar-wiki-bm25-lexmodel-query-encoder	facebook/spar-wiki-bm25-lexmodel-context-encoder
PAQ BM25 Λ	PAQ	BM25	BERT-base	facebook/spar-paq-bm25-lexmodel-query-encoder	facebook/spar-paq-bm25-lexmodel-context-encoder
MARCO BM25 Λ	MS MARCO	BM25	BERT-base	facebook/spar-marco-bm25-lexmodel-query-encoder	facebook/spar-marco-bm25-lexmodel-context-encoder
MARCO UniCOIL Λ	MS MARCO	UniCOIL	BERT-base	facebook/spar-marco-unicoil-lexmodel-query-encoder	facebook/spar-marco-unicoil-lexmodel-context-encoder

💻 使用示例

基礎用法

單獨使用Lexical Model (Λ)，此模型應與相關的上下文編碼器一起使用，類似於 DPR 模型。

import torch
from transformers import AutoTokenizer, AutoModel

# 分詞器對於查詢和上下文編碼器是相同的
tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 應用分詞器
query_input = tokenizer(query, return_tensors='pt')
ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')

# 計算嵌入：取 [CLS] 標記的最後一層隱藏狀態
query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 使用點積計算相似度得分
score1 = query_emb @ ctx_emb[0]  # 341.3268
score2 = query_emb @ ctx_emb[1]  # 340.1626

高級用法

將Lexical Model (Λ) 與基礎密集檢索器結合使用，如SPAR論文中所述。由於 Λ 從稀疏教師檢索器學習詞彙匹配，因此可以與標準密集檢索器（如 DPR、Contriever）結合使用，以構建在詞彙和語義匹配方面都表現出色的密集檢索器。

import torch
from transformers import AutoTokenizer, AutoModel
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

# DPR 模型
dpr_ctx_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_ctx_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_query_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
dpr_query_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")

# Wiki BM25 Λ 模型
lexmodel_tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 計算 DPR 嵌入
dpr_query_input = dpr_query_tokenizer(query, return_tensors='pt')['input_ids']
dpr_query_emb = dpr_query_encoder(dpr_query_input).pooler_output
dpr_ctx_input = dpr_ctx_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
dpr_ctx_emb = dpr_ctx_encoder(**dpr_ctx_input).pooler_output

# 計算 Λ 嵌入
lexmodel_query_input = lexmodel_tokenizer(query, return_tensors='pt')
lexmodel_query_emb = lexmodel_query_encoder(**query_input).last_hidden_state[:, 0, :]
lexmodel_ctx_input = lexmodel_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
lexmodel_ctx_emb = lexmodel_context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 通過拼接形成 SPAR 嵌入

# 拼接權重僅應用於查詢嵌入
# 詳情請參考 SPAR 論文
concat_weight = 0.7

spar_query_emb = torch.cat(
    [dpr_query_emb, concat_weight * lexmodel_query_emb],
    dim=-1,
    )
spar_ctx_emb = torch.cat(
    [dpr_ctx_emb, lexmodel_ctx_emb],
    dim=-1,
)

# 計算相似度得分
score1 = spar_query_emb @ spar_ctx_emb[0]  # 317.6931
score2 = spar_query_emb @ spar_ctx_emb[1]  # 314.6144