spar-wiki-bm25-lexmodel-context-encoder开源稠密检索器 - 基于维基百科训练精准检索信息

首页

Spar Wiki Bm25 Lexmodel Context Encoder

由 facebook 开发

基于BERT-base架构的稠密检索器，通过维基百科文章训练以模仿BM25的行为

文本嵌入

Transformers

#稠密检索器 #BM25模仿 #开放域问答

下载量 68

发布时间 : 9/21/2022

模型简介

该模型是SPAR论文中Wiki BM25词法模型（Λ）的上下文编码器，用于稠密检索任务，能够模仿稀疏检索器BM25的行为。

模型特点

模仿BM25行为

通过维基百科文章训练，能够模仿稀疏检索器BM25的行为

与查询编码器配合使用

需与对应的查询编码器配合使用，类似于DPR模型

结合稠密检索器

可与标准稠密检索器（如DPR、Contriever）结合，构建同时擅长词法和语义匹配的稠密检索器

模型能力

特征提取

稠密检索

词法匹配

使用案例

开放域问答

维基百科信息检索

用于从维基百科文章中检索与查询相关的信息

能够有效模仿BM25的行为，提供准确的检索结果

信息检索

结合DPR使用

与DPR模型结合，构建同时擅长词法和语义匹配的稠密检索器

提升检索性能，结合词法和语义匹配的优势

🚀 稀疏短语感知密集检索模型（SPAR）上下文编码器

本模型是SPAR论文中Wiki BM25词汇模型（Λ）的上下文编码器，旨在让密集检索器模仿稀疏检索器的行为，提升检索性能。

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta和Wen-tau Yih
Meta AI

关联的GitHub仓库地址：https://github.com/facebookresearch/dpr-scale/tree/main/spar

本模型是一个BERT-base大小的密集检索器，在维基百科文章上进行训练，以模仿BM25的行为。以下是可用的预训练模型：

预训练模型	语料库	教师模型	架构	查询编码器路径	上下文编码器路径
Wiki BM25 Λ	维基百科	BM25	BERT-base	facebook/spar-wiki-bm25-lexmodel-query-encoder	facebook/spar-wiki-bm25-lexmodel-context-encoder
PAQ BM25 Λ	PAQ	BM25	BERT-base	facebook/spar-paq-bm25-lexmodel-query-encoder	facebook/spar-paq-bm25-lexmodel-context-encoder
MARCO BM25 Λ	MS MARCO	BM25	BERT-base	facebook/spar-marco-bm25-lexmodel-query-encoder	facebook/spar-marco-bm25-lexmodel-context-encoder
MARCO UniCOIL Λ	MS MARCO	UniCOIL	BERT-base	facebook/spar-marco-unicoil-lexmodel-query-encoder	facebook/spar-marco-unicoil-lexmodel-context-encoder

💻 使用示例

基础用法

单独使用词汇模型（Λ）时，此模型应与关联的查询编码器一起使用，类似于 DPR 模型。

import torch
from transformers import AutoTokenizer, AutoModel

# 分词器对查询和上下文编码器是相同的
tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 应用分词器
query_input = tokenizer(query, return_tensors='pt')
ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')

# 计算嵌入：取 [CLS] 标记的最后一层隐藏状态
query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 使用点积计算相似度得分
score1 = query_emb @ ctx_emb[0]  # 341.3268
score2 = query_emb @ ctx_emb[1]  # 340.1626

高级用法

由于 Λ 从稀疏教师检索器学习词汇匹配，它可以与标准的密集检索器（如 DPR、Contriever）结合使用，以构建在词汇和语义匹配方面都表现出色的密集检索器。

以下示例展示了如何通过连接DPR和Wiki BM25 Λ的嵌入来构建用于开放域问答的SPAR-Wiki模型：

import torch
from transformers import AutoTokenizer, AutoModel
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
from transformers import DPRContextEncoder, DPRContextEncoderTokenizer

# DPR模型
dpr_ctx_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_ctx_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-multiset-base")
dpr_query_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
dpr_query_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")

# Wiki BM25 Λ模型
lexmodel_tokenizer = AutoTokenizer.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_query_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-query-encoder')
lexmodel_context_encoder = AutoModel.from_pretrained('facebook/spar-wiki-bm25-lexmodel-context-encoder')

query = "Where was Marie Curie born?"
contexts = [
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 计算DPR嵌入
dpr_query_input = dpr_query_tokenizer(query, return_tensors='pt')['input_ids']
dpr_query_emb = dpr_query_encoder(dpr_query_input).pooler_output
dpr_ctx_input = dpr_ctx_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
dpr_ctx_emb = dpr_ctx_encoder(**dpr_ctx_input).pooler_output

# 计算 Λ 嵌入
lexmodel_query_input = lexmodel_tokenizer(query, return_tensors='pt')
lexmodel_query_emb = lexmodel_query_encoder(**query_input).last_hidden_state[:, 0, :]
lexmodel_ctx_input = lexmodel_tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
lexmodel_ctx_emb = lexmodel_context_encoder(**ctx_input).last_hidden_state[:, 0, :]

# 通过连接形成SPAR嵌入

# 连接权重仅应用于查询嵌入
# 详情请参考SPAR论文
concat_weight = 0.7

spar_query_emb = torch.cat(
    [dpr_query_emb, concat_weight * lexmodel_query_emb],
    dim=-1,
    )
spar_ctx_emb = torch.cat(
    [dpr_ctx_emb, lexmodel_ctx_emb],
    dim=-1,
)

# 计算相似度得分
score1 = spar_query_emb @ spar_ctx_emb[0]  # 317.6931
score2 = spar_query_emb @ spar_ctx_emb[1]  # 314.6144