🚀 dpr-question_encoder-multiset-base
dpr-question_encoder-multiset-base
是基于 Dense Passage Retrieval (DPR) 开发的问题编码器,它使用了多个问答数据集进行训练,可用于开放域问答任务,为相关研究和应用提供了有力支持。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主要特性
📦 安装指南
文档未提及安装步骤,可参考 Hugging Face DPR 文档 进行安装。
💻 使用示例
基础用法
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
📚 详细文档
模型详情
模型描述:Dense Passage Retrieval (DPR) 是一套用于前沿开放域问答研究的工具和模型。dpr-question_encoder-multiset-base
是使用 Natural Questions (NQ) 数据集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 训练的问题编码器。
用途
直接用途
dpr-question_encoder-multiset-base
、dpr-ctx_encoder-multiset-base
和 dpr-reader-multiset-base
可用于开放域问答任务。
误用和超出范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。此外,DPR 模型集并未经过训练以提供关于人物或事件的事实性或真实表述,因此使用这些模型生成此类内容超出了该模型的能力范围。
风险、局限性和偏差
⚠️ 重要提示
读者应注意,本节内容可能包含令人不安、冒犯性的内容,并可能传播历史和当前的刻板印象。
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人,2021 和 Bender 等人,2021)。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
训练
训练数据
该模型使用以下数据集进行训练:
训练过程
训练过程在 相关论文 中有描述:
给定 M 个文本段落的集合,我们的密集段落检索器(DPR)的目标是将所有段落索引到一个低维连续空间中,以便在运行时能够有效地为阅读器检索与输入问题相关的前 k 个段落。
我们的密集段落检索器(DPR)使用一个密集编码器 EP(·),它将任何文本段落映射到一个 d 维实值向量,并为我们用于检索的所有 M 个段落构建一个索引。在运行时,DPR 应用一个不同的编码器 EQ(·),它将输入问题映射到一个 d 维向量,并检索其向量与问题向量最接近的 k 个段落。
作者报告称,对于编码器,他们使用了两个独立的 BERT(Devlin 等人,2019)网络(基础、无大小写),并在推理时使用 FAISS(Johnson 等人,2017)对段落进行编码和索引。有关训练的更多详细信息,包括编码器、推理、正例和负例段落以及批内负例,请参阅论文。
评估
以下评估信息摘自 相关论文。
测试数据、因素和指标
模型开发者报告了该模型在五个问答数据集上的性能,使用了前 k 准确率(k ∈ {20, 100})。这些数据集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。
结果
|
前 20 |
|
|
|
|
前 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
79.4 |
78.8 |
75.0 |
89.1 |
51.6 |
86.0 |
84.7 |
82.9 |
93.9 |
67.6 |
环境影响
可以使用 Lacoste 等人(2019) 提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 列出了硬件类型。
属性 |
详情 |
硬件类型 |
8 个 32GB GPU |
使用时长 |
未知 |
云服务提供商 |
未知 |
计算区域 |
未知 |
碳排放 |
未知 |
技术规格
有关建模架构、目标、计算基础设施和训练细节的详细信息,请参阅 相关论文。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
此模型卡片由 Hugging Face 团队编写。