dpr-question_encoder-multiset-base开源问题编码器

首页

Dpr Question Encoder Multiset Base

由 facebook 开发

基于BERT的密集段落检索(DPR)问题编码器，用于开放领域问答研究，在多个QA数据集上训练

问答系统

Transformers

英语#开放域问答 #多数据集训练 #密集段落检索

下载量 17.51k

发布时间 : 3/2/2022

模型简介

该模型是DPR工具集中的问题编码器，用于将自然语言问题编码为低维向量表示，以便在开放领域问答任务中检索相关段落。

模型特点

多数据集训练

在自然问题(NQ)、TriviaQA、网页问题(WQ)和精选TREC(TREC)四个QA数据集上联合训练，具有更强的泛化能力

密集向量表示

将问题和段落编码为低维连续空间中的密集向量，支持高效的相似度计算和检索

与FAISS兼容

生成的向量表示可直接用于FAISS等高效相似度搜索库，实现大规模段落检索

模型能力

问题向量化表示

语义相似度计算

开放领域问答支持

使用案例

问答系统

开放领域问答

构建能够回答任意领域问题的系统，先检索相关段落再生成答案

在NQ数据集上top-100准确率达到86%

知识检索

从大规模文档集合中检索与问题最相关的段落

🚀 `dpr-question_encoder-multiset-base`

dpr-question_encoder-multiset-base 是基于 Dense Passage Retrieval (DPR) 开发的问题编码器，它使用了多个问答数据集进行训练，可用于开放域问答任务，为相关研究和应用提供了有力支持。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

✨ 主要特性

多数据集训练：使用 Natural Questions (NQ) 数据集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 进行训练。
适用于开放域问答：可与其他相关模型配合，用于开放域问答任务。

📦 安装指南

文档未提及安装步骤，可参考 Hugging Face DPR 文档进行安装。

💻 使用示例

基础用法

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

📚 详细文档

模型详情

模型描述：Dense Passage Retrieval (DPR) 是一套用于前沿开放域问答研究的工具和模型。dpr-question_encoder-multiset-base 是使用 Natural Questions (NQ) 数据集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 训练的问题编码器。

开发者：请参阅 GitHub 仓库了解模型开发者信息。
模型类型：基于 BERT 的编码器
语言：英文
许可证：CC-BY-NC-4.0，另请参阅行为准则
相关模型：
更多信息资源：

用途

直接用途

dpr-question_encoder-multiset-base、dpr-ctx_encoder-multiset-base 和 dpr-reader-multiset-base 可用于开放域问答任务。

误用和超出范围的使用

该模型不应被用于故意为人们创造敌对或排斥性的环境。此外，DPR 模型集并未经过训练以提供关于人物或事件的事实性或真实表述，因此使用这些模型生成此类内容超出了该模型的能力范围。

风险、局限性和偏差

⚠️ 重要提示

读者应注意，本节内容可能包含令人不安、冒犯性的内容，并可能传播历史和当前的刻板印象。

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng 等人，2021 和 Bender 等人，2021）。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

训练

训练数据

该模型使用以下数据集进行训练：

Natural Questions (NQ) 数据集 (Lee 等人，2019; Kwiatkowski 等人，2019)
TriviaQA (Joshi 等人，2017)
WebQuestions (WQ) (Berant 等人，2013)
CuratedTREC (TREC) (Baudiš & Šedivý, 2015)

训练过程

训练过程在相关论文中有描述：

给定 M 个文本段落的集合，我们的密集段落检索器（DPR）的目标是将所有段落索引到一个低维连续空间中，以便在运行时能够有效地为阅读器检索与输入问题相关的前 k 个段落。

我们的密集段落检索器（DPR）使用一个密集编码器 EP(·)，它将任何文本段落映射到一个 d 维实值向量，并为我们用于检索的所有 M 个段落构建一个索引。在运行时，DPR 应用一个不同的编码器 EQ(·)，它将输入问题映射到一个 d 维向量，并检索其向量与问题向量最接近的 k 个段落。

作者报告称，对于编码器，他们使用了两个独立的 BERT（Devlin 等人，2019）网络（基础、无大小写），并在推理时使用 FAISS（Johnson 等人，2017）对段落进行编码和索引。有关训练的更多详细信息，包括编码器、推理、正例和负例段落以及批内负例，请参阅论文。

评估

以下评估信息摘自相关论文。

测试数据、因素和指标

模型开发者报告了该模型在五个问答数据集上的性能，使用了前 k 准确率（k ∈ {20, 100}）。这些数据集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。

结果

	前 20					前 100
	NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
	79.4	78.8	75.0	89.1	51.6	86.0	84.7	82.9	93.9	67.6

环境影响

可以使用 Lacoste 等人（2019）提出的机器学习影响计算器来估算碳排放。我们根据相关论文列出了硬件类型。

属性	详情
硬件类型	8 个 32GB GPU
使用时长	未知
云服务提供商	未知
计算区域	未知
碳排放	未知

技术规格

有关建模架构、目标、计算基础设施和训练细节的详细信息，请参阅相关论文。

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}