🚀 dpr-question_encoder-single-nq-base
dpr-question_encoder-single-nq-base
是基於 Dense Passage Retrieval (DPR) 框架,使用 Natural Questions (NQ) 數據集訓練得到的問題編碼器,可用於開放域問答任務。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主要特性
- 先進的開放域問答工具:基於 Dense Passage Retrieval (DPR) 框架,是用於開放域問答研究的先進工具和模型集合的一部分。
- 特定數據集訓練:使用 Natural Questions (NQ) 數據集進行訓練,該數據集源自真實的谷歌搜索查詢,答案來自維基百科文章。
- 多相關模型支持:有多個相關模型可供配合使用,如
dpr-ctx_encoder-single-nq-base
、dpr-reader-single-nq-base
等,可共同完成開放域問答任務。
📚 詳細文檔
模型詳情
用途
直接用途
dpr-question_encoder-single-nq-base
、dpr-ctx_encoder-single-nq-base
和 dpr-reader-single-nq-base
可用於開放域問答任務。
誤用和超出範圍的使用
該模型不應被用於故意為人們創造敵對或排斥的環境。此外,DPR 模型集並非用於生成事實性或真實反映人物或事件的內容,因此使用這些模型生成此類內容超出了該模型的能力範圍。
風險、侷限性和偏差
⚠️ 重要提示
讀者應注意,本節內容可能包含令人不安、冒犯性的內容,並可能傳播歷史和當前的刻板印象。
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人, 2021 和 Bender 等人, 2021)。該模型生成的預測結果可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
訓練
訓練數據
該模型使用 Natural Questions (NQ) 數據集 進行訓練(Lee 等人, 2019; Kwiatkowski 等人, 2019)。模型作者指出:
[該數據集] 是為端到端問答而設計的。問題是從真實的谷歌搜索查詢中挖掘出來的,答案是註釋者在維基百科文章中確定的文本片段。
訓練過程
訓練過程在 相關論文 中有詳細描述:
給定一個包含 M 個文本段落的集合,我們的密集段落檢索器 (DPR) 的目標是將所有段落索引到一個低維連續空間中,以便在運行時能夠有效地為閱讀器檢索與輸入問題相關的前 k 個段落。
我們的密集段落檢索器 (DPR) 使用一個密集編碼器 EP(·),它將任何文本段落映射到一個 d 維實值向量,併為我們將用於檢索的所有 M 個段落構建一個索引。在運行時,DPR 應用一個不同的編碼器 EQ(·),它將輸入問題映射到一個 d 維向量,並檢索其向量與問題向量最接近的 k 個段落。
作者報告稱,對於編碼器,他們使用了兩個獨立的 BERT (Devlin 等人, 2019) 網絡(基礎無大小寫),並在推理時使用 FAISS (Johnson 等人, 2017) 對段落進行編碼和索引。有關訓練的更多詳細信息,包括編碼器、推理、正例和負例段落以及批內負例,請參閱論文。
評估
以下評估信息摘自 相關論文。
測試數據、因素和指標
模型開發者報告了該模型在五個問答數據集上的性能,使用了前 k 準確率(k ∈ {20, 100})。這些數據集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。
結果
|
前 20 |
|
|
|
|
前 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
78.4 |
79.4 |
73.2 |
79.8 |
63.2 |
85.4 |
85.0 |
81.4 |
89.1 |
77.2 |
環境影響
可以使用 機器學習影響計算器 來估算碳排放,該計算器在 Lacoste 等人 (2019) 中有介紹。我們根據 相關論文 列出了硬件類型。
屬性 |
詳情 |
硬件類型 |
8 個 32GB GPU |
使用時長 |
未知 |
雲服務提供商 |
未知 |
計算區域 |
未知 |
碳排放 |
未知 |
技術規格
有關模型架構、目標、計算基礎設施和訓練細節的詳細信息,請參閱 相關論文。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
本模型卡片由 Hugging Face 團隊撰寫。