🚀 dpr-question_encoder-multiset-base
dpr-question_encoder-multiset-base
是基於 Dense Passage Retrieval (DPR) 開發的問題編碼器,它使用了多個問答數據集進行訓練,可用於開放域問答任務,為相關研究和應用提供了有力支持。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主要特性
📦 安裝指南
文檔未提及安裝步驟,可參考 Hugging Face DPR 文檔 進行安裝。
💻 使用示例
基礎用法
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
📚 詳細文檔
模型詳情
模型描述:Dense Passage Retrieval (DPR) 是一套用於前沿開放域問答研究的工具和模型。dpr-question_encoder-multiset-base
是使用 Natural Questions (NQ) 數據集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 訓練的問題編碼器。
用途
直接用途
dpr-question_encoder-multiset-base
、dpr-ctx_encoder-multiset-base
和 dpr-reader-multiset-base
可用於開放域問答任務。
誤用和超出範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。此外,DPR 模型集並未經過訓練以提供關於人物或事件的事實性或真實表述,因此使用這些模型生成此類內容超出了該模型的能力範圍。
風險、侷限性和偏差
⚠️ 重要提示
讀者應注意,本節內容可能包含令人不安、冒犯性的內容,並可能傳播歷史和當前的刻板印象。
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人,2021 和 Bender 等人,2021)。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
訓練
訓練數據
該模型使用以下數據集進行訓練:
訓練過程
訓練過程在 相關論文 中有描述:
給定 M 個文本段落的集合,我們的密集段落檢索器(DPR)的目標是將所有段落索引到一個低維連續空間中,以便在運行時能夠有效地為閱讀器檢索與輸入問題相關的前 k 個段落。
我們的密集段落檢索器(DPR)使用一個密集編碼器 EP(·),它將任何文本段落映射到一個 d 維實值向量,併為我們用於檢索的所有 M 個段落構建一個索引。在運行時,DPR 應用一個不同的編碼器 EQ(·),它將輸入問題映射到一個 d 維向量,並檢索其向量與問題向量最接近的 k 個段落。
作者報告稱,對於編碼器,他們使用了兩個獨立的 BERT(Devlin 等人,2019)網絡(基礎、無大小寫),並在推理時使用 FAISS(Johnson 等人,2017)對段落進行編碼和索引。有關訓練的更多詳細信息,包括編碼器、推理、正例和負例段落以及批內負例,請參閱論文。
評估
以下評估信息摘自 相關論文。
測試數據、因素和指標
模型開發者報告了該模型在五個問答數據集上的性能,使用了前 k 準確率(k ∈ {20, 100})。這些數據集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。
結果
|
前 20 |
|
|
|
|
前 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
79.4 |
78.8 |
75.0 |
89.1 |
51.6 |
86.0 |
84.7 |
82.9 |
93.9 |
67.6 |
環境影響
可以使用 Lacoste 等人(2019) 提出的 機器學習影響計算器 來估算碳排放。我們根據 相關論文 列出了硬件類型。
屬性 |
詳情 |
硬件類型 |
8 個 32GB GPU |
使用時長 |
未知 |
雲服務提供商 |
未知 |
計算區域 |
未知 |
碳排放 |
未知 |
技術規格
有關建模架構、目標、計算基礎設施和訓練細節的詳細信息,請參閱 相關論文。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
此模型卡片由 Hugging Face 團隊編寫。