开源DPR问题编码器模型 - 用于开放领域问答，基于NQ数据集训练

首页

Dpr Question Encoder Single Nq Base

由 facebook 开发

DPR(密集段落检索)是用于开放领域问答研究的工具和模型。该模型是基于BERT的问题编码器，使用自然问题(NQ)数据集训练。

问答系统

Transformers

英语#开放领域问答 #密集段落检索 #BERT编码器

下载量 32.90k

发布时间 : 3/2/2022

模型简介

该模型是DPR系列中的问题编码器，主要用于将自然语言问题编码为向量表示，以便在开放领域问答系统中检索相关段落。

模型特点

高效检索

将问题编码为低维向量，支持快速检索相关段落

开放领域问答

专为开放领域问答任务优化，能够处理广泛的自然语言问题

BERT基础架构

基于成熟的BERT-base架构，具有良好的语言理解能力

模型能力

问题向量化

语义相似度计算

开放领域问答支持

使用案例

问答系统

开放领域问答

构建能够回答广泛领域问题的智能问答系统

在NQ数据集上Top-20准确率达78.4%

信息检索

语义检索

基于语义而非关键词匹配的文档检索系统

🚀 `dpr-question_encoder-single-nq-base`

dpr-question_encoder-single-nq-base 是基于 Dense Passage Retrieval (DPR) 框架，使用 Natural Questions (NQ) 数据集训练得到的问题编码器，可用于开放域问答任务。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

✨ 主要特性

先进的开放域问答工具：基于 Dense Passage Retrieval (DPR) 框架，是用于开放域问答研究的先进工具和模型集合的一部分。
特定数据集训练：使用 Natural Questions (NQ) 数据集进行训练，该数据集源自真实的谷歌搜索查询，答案来自维基百科文章。
多相关模型支持：有多个相关模型可供配合使用，如 dpr-ctx_encoder-single-nq-base、dpr-reader-single-nq-base 等，可共同完成开放域问答任务。

📚 详细文档

模型详情

模型描述：Dense Passage Retrieval (DPR) 是一套用于前沿开放域问答研究的工具和模型。dpr-question_encoder-single-nq-base 是使用 Natural Questions (NQ) 数据集 (Lee 等人, 2019; Kwiatkowski 等人, 2019) 训练的问题编码器。
开发者：有关模型开发者信息，请参阅 GitHub 仓库。
模型类型：基于 BERT 的编码器。
语言：英文。
许可证：CC-BY-NC-4.0，另请参阅行为准则。
相关模型：
更多信息资源：

用途

直接用途

dpr-question_encoder-single-nq-base、dpr-ctx_encoder-single-nq-base 和 dpr-reader-single-nq-base 可用于开放域问答任务。

误用和超出范围的使用

该模型不应被用于故意为人们创造敌对或排斥的环境。此外，DPR 模型集并非用于生成事实性或真实反映人物或事件的内容，因此使用这些模型生成此类内容超出了该模型的能力范围。

风险、局限性和偏差

⚠️ 重要提示

读者应注意，本节内容可能包含令人不安、冒犯性的内容，并可能传播历史和当前的刻板印象。

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng 等人, 2021 和 Bender 等人, 2021）。该模型生成的预测结果可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

训练

训练数据

该模型使用 Natural Questions (NQ) 数据集进行训练（Lee 等人, 2019; Kwiatkowski 等人, 2019）。模型作者指出：

[该数据集] 是为端到端问答而设计的。问题是从真实的谷歌搜索查询中挖掘出来的，答案是注释者在维基百科文章中确定的文本片段。

训练过程

训练过程在相关论文中有详细描述：

给定一个包含 M 个文本段落的集合，我们的密集段落检索器 (DPR) 的目标是将所有段落索引到一个低维连续空间中，以便在运行时能够有效地为阅读器检索与输入问题相关的前 k 个段落。

我们的密集段落检索器 (DPR) 使用一个密集编码器 EP(·)，它将任何文本段落映射到一个 d 维实值向量，并为我们将用于检索的所有 M 个段落构建一个索引。在运行时，DPR 应用一个不同的编码器 EQ(·)，它将输入问题映射到一个 d 维向量，并检索其向量与问题向量最接近的 k 个段落。

作者报告称，对于编码器，他们使用了两个独立的 BERT (Devlin 等人, 2019) 网络（基础无大小写），并在推理时使用 FAISS (Johnson 等人, 2017) 对段落进行编码和索引。有关训练的更多详细信息，包括编码器、推理、正例和负例段落以及批内负例，请参阅论文。

评估

以下评估信息摘自相关论文。

测试数据、因素和指标

模型开发者报告了该模型在五个问答数据集上的性能，使用了前 k 准确率（k ∈ {20, 100}）。这些数据集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。

结果

	前 20					前 100
	NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
	78.4	79.4	73.2	79.8	63.2	85.4	85.0	81.4	89.1	77.2

环境影响

可以使用机器学习影响计算器来估算碳排放，该计算器在 Lacoste 等人 (2019) 中有介绍。我们根据相关论文列出了硬件类型。

属性	详情
硬件类型	8 个 32GB GPU
使用时长	未知
云服务提供商	未知
计算区域	未知
碳排放	未知

技术规格

有关模型架构、目标、计算基础设施和训练细节的详细信息，请参阅相关论文。

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}