🚀 dpr-question_encoder-single-nq-base
dpr-question_encoder-single-nq-base
是基于 Dense Passage Retrieval (DPR) 框架,使用 Natural Questions (NQ) 数据集训练得到的问题编码器,可用于开放域问答任务。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主要特性
- 先进的开放域问答工具:基于 Dense Passage Retrieval (DPR) 框架,是用于开放域问答研究的先进工具和模型集合的一部分。
- 特定数据集训练:使用 Natural Questions (NQ) 数据集进行训练,该数据集源自真实的谷歌搜索查询,答案来自维基百科文章。
- 多相关模型支持:有多个相关模型可供配合使用,如
dpr-ctx_encoder-single-nq-base
、dpr-reader-single-nq-base
等,可共同完成开放域问答任务。
📚 详细文档
模型详情
用途
直接用途
dpr-question_encoder-single-nq-base
、dpr-ctx_encoder-single-nq-base
和 dpr-reader-single-nq-base
可用于开放域问答任务。
误用和超出范围的使用
该模型不应被用于故意为人们创造敌对或排斥的环境。此外,DPR 模型集并非用于生成事实性或真实反映人物或事件的内容,因此使用这些模型生成此类内容超出了该模型的能力范围。
风险、局限性和偏差
⚠️ 重要提示
读者应注意,本节内容可能包含令人不安、冒犯性的内容,并可能传播历史和当前的刻板印象。
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人, 2021 和 Bender 等人, 2021)。该模型生成的预测结果可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
训练
训练数据
该模型使用 Natural Questions (NQ) 数据集 进行训练(Lee 等人, 2019; Kwiatkowski 等人, 2019)。模型作者指出:
[该数据集] 是为端到端问答而设计的。问题是从真实的谷歌搜索查询中挖掘出来的,答案是注释者在维基百科文章中确定的文本片段。
训练过程
训练过程在 相关论文 中有详细描述:
给定一个包含 M 个文本段落的集合,我们的密集段落检索器 (DPR) 的目标是将所有段落索引到一个低维连续空间中,以便在运行时能够有效地为阅读器检索与输入问题相关的前 k 个段落。
我们的密集段落检索器 (DPR) 使用一个密集编码器 EP(·),它将任何文本段落映射到一个 d 维实值向量,并为我们将用于检索的所有 M 个段落构建一个索引。在运行时,DPR 应用一个不同的编码器 EQ(·),它将输入问题映射到一个 d 维向量,并检索其向量与问题向量最接近的 k 个段落。
作者报告称,对于编码器,他们使用了两个独立的 BERT (Devlin 等人, 2019) 网络(基础无大小写),并在推理时使用 FAISS (Johnson 等人, 2017) 对段落进行编码和索引。有关训练的更多详细信息,包括编码器、推理、正例和负例段落以及批内负例,请参阅论文。
评估
以下评估信息摘自 相关论文。
测试数据、因素和指标
模型开发者报告了该模型在五个问答数据集上的性能,使用了前 k 准确率(k ∈ {20, 100})。这些数据集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。
结果
|
前 20 |
|
|
|
|
前 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
78.4 |
79.4 |
73.2 |
79.8 |
63.2 |
85.4 |
85.0 |
81.4 |
89.1 |
77.2 |
环境影响
可以使用 机器学习影响计算器 来估算碳排放,该计算器在 Lacoste 等人 (2019) 中有介绍。我们根据 相关论文 列出了硬件类型。
属性 |
详情 |
硬件类型 |
8 个 32GB GPU |
使用时长 |
未知 |
云服务提供商 |
未知 |
计算区域 |
未知 |
碳排放 |
未知 |
技术规格
有关模型架构、目标、计算基础设施和训练细节的详细信息,请参阅 相关论文。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
本模型卡片由 Hugging Face 团队撰写。