spar-wiki-bm25-lexmodel-query-encoder开源检索模型 - 模仿BM25检索维基百科文章超实用

首页

Spar Wiki Bm25 Lexmodel Query Encoder

由 facebook 开发

基于BERT-base架构的密集检索器，在维基百科文章上训练，旨在模仿BM25的行为

文本嵌入

Transformers

#密集检索 #BM25模仿 #词汇匹配增强

下载量 80

发布时间 : 9/21/2022

模型简介

该模型是SPAR论文中提出的词汇模型(Λ)的查询编码器部分，通过与上下文编码器配合使用，可以实现类似稀疏检索器BM25的效果。模型能够学习词汇匹配模式，可与标准密集检索器结合使用以提升检索性能。

模型特点

BM25行为模仿

通过训练模仿传统BM25稀疏检索器的行为，保留词汇匹配优势

与密集检索器互补

可与DPR等密集检索器结合，同时具备词汇和语义匹配能力

BERT-base架构

基于广泛使用的BERT-base架构，便于集成到现有系统中

模型能力

文本嵌入生成

词汇特征提取

文档检索

问答系统支持

使用案例

信息检索

开放域问答

用于构建问答系统，从大规模文档中检索相关答案

结合DPR使用时能同时捕捉词汇和语义匹配信号

文档检索

用于搜索引擎或知识库中的相关文档检索

模仿BM25行为，保留传统检索系统的优势

🚀 Wiki BM25 Lexical Model (Λ) 查询编码器

该模型是SPAR论文中Wiki BM25 Lexical Model (Λ) 的查询编码器，可用于特征提取，有效模仿BM25的行为，提升信息检索的效果。

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
Meta AI

相关的GitHub仓库链接：https://github.com/facebookresearch/dpr-scale/tree/main/spar

🚀 快速开始

此模型是一个BERT-base大小的密集检索器，在维基百科文章上进行训练，以模仿BM25的行为。以下是可用的预训练模型：

预训练模型	语料库	教师模型	架构	查询编码器路径	上下文编码器路径
Wiki BM25 Λ	维基百科	BM25	BERT-base	facebook/spar-wiki-bm25-lexmodel-query-encoder	facebook/spar-wiki-bm25-lexmodel-context-encoder
PAQ BM25 Λ	PAQ	BM25	BERT-base	facebook/spar-paq-bm25-lexmodel-query-encoder	facebook/spar-paq-bm25-lexmodel-context-encoder
MARCO BM25 Λ	MS MARCO	BM25	BERT-base	facebook/spar-marco-bm25-lexmodel-query-encoder	facebook/spar-marco-bm25-lexmodel-context-encoder
MARCO UniCOIL Λ	MS MARCO	UniCOIL	BERT-base	facebook/spar-marco-unicoil-lexmodel-query-encoder	facebook/spar-marco-unicoil-lexmodel-context-encoder

💻 使用示例

基础用法

单独使用Lexical Model (Λ)，此模型应与相关的上下文编码器一起使用，类似于 DPR 模型。

import torch
from transformers import AutoTokenizer, AutoModel

# 分词器对于查询和上下文编码器是相同的
tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 应用分词器
query_input = tokenizer(query, return_tensors='pt')
ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')

# 计算嵌入：取 [CLS] 标记的最后一层隐藏状态
query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 使用点积计算相似度得分
score1 = query_emb @ ctx_emb[0]  # 341.3268
score2 = query_emb @ ctx_emb[1]  # 340.1626

高级用法

将Lexical Model (Λ) 与基础密集检索器结合使用，如SPAR论文中所述。由于 Λ 从稀疏教师检索器学习词汇匹配，因此可以与标准密集检索器（如 DPR、Contriever）结合使用，以构建在词汇和语义匹配方面都表现出色的密集检索器。

import torch
from transformers import AutoTokenizer, AutoModel
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

# DPR 模型
dpr_ctx_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_ctx_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_query_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
dpr_query_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")

# Wiki BM25 Λ 模型
lexmodel_tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 计算 DPR 嵌入
dpr_query_input = dpr_query_tokenizer(query, return_tensors='pt')['input_ids']
dpr_query_emb = dpr_query_encoder(dpr_query_input).pooler_output
dpr_ctx_input = dpr_ctx_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
dpr_ctx_emb = dpr_ctx_encoder(**dpr_ctx_input).pooler_output

# 计算 Λ 嵌入
lexmodel_query_input = lexmodel_tokenizer(query, return_tensors='pt')
lexmodel_query_emb = lexmodel_query_encoder(**query_input).last_hidden_state[:, 0, :]
lexmodel_ctx_input = lexmodel_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
lexmodel_ctx_emb = lexmodel_context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 通过拼接形成 SPAR 嵌入

# 拼接权重仅应用于查询嵌入
# 详情请参考 SPAR 论文
concat_weight = 0.7

spar_query_emb = torch.cat(
    [dpr_query_emb, concat_weight * lexmodel_query_emb],
    dim=-1,
    )
spar_ctx_emb = torch.cat(
    [dpr_ctx_emb, lexmodel_ctx_emb],
    dim=-1,
)

# 计算相似度得分
score1 = spar_query_emb @ spar_ctx_emb[0]  # 317.6931
score2 = spar_query_emb @ spar_ctx_emb[1]  # 314.6144