dpr-question_encoder-multiset-base開源問題編碼器

首頁

Dpr Question Encoder Multiset Base

由facebook開發

基於BERT的密集段落檢索(DPR)問題編碼器，用於開放領域問答研究，在多個QA數據集上訓練

問答系統

Transformers

英語#開放域問答 #多數據集訓練 #密集段落檢索

下載量 17.51k

發布時間 : 3/2/2022

模型概述

該模型是DPR工具集中的問題編碼器，用於將自然語言問題編碼為低維向量表示，以便在開放領域問答任務中檢索相關段落。

模型特點

多數據集訓練

在自然問題(NQ)、TriviaQA、網頁問題(WQ)和精選TREC(TREC)四個QA數據集上聯合訓練，具有更強的泛化能力

密集向量表示

將問題和段落編碼為低維連續空間中的密集向量，支持高效的相似度計算和檢索

與FAISS兼容

生成的向量表示可直接用於FAISS等高效相似度搜索庫，實現大規模段落檢索

模型能力

問題向量化表示

語義相似度計算

開放領域問答支持

使用案例

問答系統

開放領域問答

構建能夠回答任意領域問題的系統，先檢索相關段落再生成答案

在NQ數據集上top-100準確率達到86%

知識檢索

從大規模文檔集合中檢索與問題最相關的段落

🚀 `dpr-question_encoder-multiset-base`

dpr-question_encoder-multiset-base 是基於 Dense Passage Retrieval (DPR) 開發的問題編碼器，它使用了多個問答數據集進行訓練，可用於開放域問答任務，為相關研究和應用提供了有力支持。

🚀 快速開始

使用以下代碼開始使用該模型：

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

✨ 主要特性

多數據集訓練：使用 Natural Questions (NQ) 數據集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 進行訓練。
適用於開放域問答：可與其他相關模型配合，用於開放域問答任務。

📦 安裝指南

文檔未提及安裝步驟，可參考 Hugging Face DPR 文檔進行安裝。

💻 使用示例

基礎用法

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

📚 詳細文檔

模型詳情

模型描述：Dense Passage Retrieval (DPR) 是一套用於前沿開放域問答研究的工具和模型。dpr-question_encoder-multiset-base 是使用 Natural Questions (NQ) 數據集、TriviaQA、WebQuestions (WQ) 和 CuratedTREC (TREC) 訓練的問題編碼器。

開發者：請參閱 GitHub 倉庫瞭解模型開發者信息。
模型類型：基於 BERT 的編碼器
語言：英文
許可證：CC-BY-NC-4.0，另請參閱行為準則
相關模型：
更多信息資源：

用途

直接用途

dpr-question_encoder-multiset-base、dpr-ctx_encoder-multiset-base 和 dpr-reader-multiset-base 可用於開放域問答任務。

誤用和超出範圍的使用

該模型不應被用於故意為人們創造敵對或排斥性的環境。此外，DPR 模型集並未經過訓練以提供關於人物或事件的事實性或真實表述，因此使用這些模型生成此類內容超出了該模型的能力範圍。

風險、侷限性和偏差

⚠️ 重要提示

讀者應注意，本節內容可能包含令人不安、冒犯性的內容，並可能傳播歷史和當前的刻板印象。

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見 Sheng 等人，2021 和 Bender 等人，2021）。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。

訓練

訓練數據

該模型使用以下數據集進行訓練：

Natural Questions (NQ) 數據集 (Lee 等人，2019; Kwiatkowski 等人，2019)
TriviaQA (Joshi 等人，2017)
WebQuestions (WQ) (Berant 等人，2013)
CuratedTREC (TREC) (Baudiš & Šedivý, 2015)

訓練過程

訓練過程在相關論文中有描述：

給定 M 個文本段落的集合，我們的密集段落檢索器（DPR）的目標是將所有段落索引到一個低維連續空間中，以便在運行時能夠有效地為閱讀器檢索與輸入問題相關的前 k 個段落。

我們的密集段落檢索器（DPR）使用一個密集編碼器 EP(·)，它將任何文本段落映射到一個 d 維實值向量，併為我們用於檢索的所有 M 個段落構建一個索引。在運行時，DPR 應用一個不同的編碼器 EQ(·)，它將輸入問題映射到一個 d 維向量，並檢索其向量與問題向量最接近的 k 個段落。

作者報告稱，對於編碼器，他們使用了兩個獨立的 BERT（Devlin 等人，2019）網絡（基礎、無大小寫），並在推理時使用 FAISS（Johnson 等人，2017）對段落進行編碼和索引。有關訓練的更多詳細信息，包括編碼器、推理、正例和負例段落以及批內負例，請參閱論文。

評估

以下評估信息摘自相關論文。

測試數據、因素和指標

模型開發者報告了該模型在五個問答數據集上的性能，使用了前 k 準確率（k ∈ {20, 100}）。這些數據集包括 NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) 和 SQuAD v1.1。

結果

	前 20					前 100
	NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
	79.4	78.8	75.0	89.1	51.6	86.0	84.7	82.9	93.9	67.6

環境影響

可以使用 Lacoste 等人（2019）提出的機器學習影響計算器來估算碳排放。我們根據相關論文列出了硬件類型。

屬性	詳情
硬件類型	8 個 32GB GPU
使用時長	未知
雲服務提供商	未知
計算區域	未知
碳排放	未知

技術規格

有關建模架構、目標、計算基礎設施和訓練細節的詳細信息，請參閱相關論文。

引用信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}