オープンソースのDPR問題エンコーダーモデル - オープンドメインの質問応答に使用。NQデータセットを基に訓練

ホーム

Dpr Question Encoder Single Nq Base

facebookによって開発

DPR(密集パッセージ検索)はオープンドメイン質問応答研究のためのツールとモデルです。このモデルはBERTベースの質問エンコーダーで、Natural Questions(NQ)データセットでトレーニングされています。

質問応答システム

Transformers

英語#オープンドメインQA #密集パッセージ検索 #BERTエンコーダー

ダウンロード数 32.90k

リリース時間 : 3/2/2022

モデル概要

このモデルはDPRシリーズの質問エンコーダーで、自然言語の質問をベクトル表現にエンコードし、オープンドメインQAシステムで関連パッセージを検索するために使用されます。

モデル特徴

効率的な検索

質問を低次元ベクトルにエンコードし、関連パッセージの高速検索をサポート

オープンドメインQA

オープンドメイン質問応答タスクに最適化されており、幅広い自然言語質問を処理可能

BERTベースアーキテクチャ

成熟したBERT-baseアーキテクチャを基盤としており、優れた言語理解能力を有する

モデル能力

質問のベクトル化

意味的類似度計算

オープンドメインQAサポート

使用事例

質問応答システム

オープンドメインQA

幅広い分野の質問に回答できるインテリジェントなQAシステムの構築

NQデータセットでTop-20精度78.4%を達成

情報検索

意味的検索

キーワードマッチングではなく意味に基づく文書検索システム

🚀 `dpr-question_encoder-single-nq-base`

Dense Passage Retrieval (DPR)を用いた質問エンコーダーモデルで、オープンドメインの質問応答タスクに利用できます。

🚀 クイックスタート

以下のコードを使用して、モデルを始めることができます。

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

✨ 主な機能

直接的な利用

dpr-question_encoder-single-nq-base、dpr-ctx_encoder-single-nq-base、およびdpr-reader-single-nq-baseは、オープンドメインの質問応答タスクに使用できます。

誤用と範囲外の利用

このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。また、DPRモデルは、人や出来事の事実的または真実の表現として訓練されていないため、このような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。

📚 ドキュメント

モデルの詳細

モデルの説明: Dense Passage Retrieval (DPR) は、最先端のオープンドメインQ&A研究のためのツールとモデルのセットです。dpr-question_encoder-single-nq-base は、Natural Questions (NQ) データセット (Lee et al., 2019; Kwiatkowski et al., 2019) を使用して訓練された質問エンコーダーです。

属性	详情
開発者	モデル開発者については、GitHubリポジトリを参照してください
モデルタイプ	BERTベースのエンコーダー
言語	英語
ライセンス	CC-BY-NC-4.0 も参照してください行動規範
関連モデル	- `dpr-ctx_encoder-single-nq-base` - `dpr-reader-single-nq-base` - `dpr-ctx_encoder-multiset-base` - `dpr-question_encoder-multiset-base` - `dpr-reader-multiset-base`
詳細情報のリソース	- 研究論文 - GitHubリポジトリ - Hugging Face DPRドキュメント - BERT Base Uncasedモデルカード

リスク、制限事項、およびバイアス

コンテンツ警告: 読者は、このセクションには、不快な、不快な、歴史的および現在のステレオタイプを広める可能性のあるコンテンツが含まれていることに注意する必要があります。

多くの研究が、言語モデルのバイアスと公平性の問題を探っています（例えば、Sheng et al., 2021 および Bender et al., 2021 を参照）。このモデルによって生成された予測には、保護されたクラス、アイデンティティの特徴、および敏感な、社会的、職業的なグループにまたがる不快で有害なステレオタイプが含まれる可能性があります。

トレーニング

トレーニングデータ

このモデルは、Natural Questions (NQ) データセット (Lee et al., 2019; Kwiatkowski et al., 2019) を使用して訓練されました。モデルの著者は、以下のように書いています。

[データセット] は、エンドツーエンドの質問応答のために設計されました。質問は、実際のGoogle検索クエリから抽出され、回答は、アノテーターによって特定されたWikipedia記事のスパンでした。

トレーニング手順

トレーニング手順は、関連する論文に記載されています。

M個のテキストパッセージのコレクションが与えられた場合、私たちの密なパッセージリトリーバー (DPR) の目標は、すべてのパッセージを低次元で連続的な空間にインデックス化することです。これにより、実行時に読者に入力された質問に関連する上位k個のパッセージを効率的に検索できます。

私たちの密なパッセージリトリーバー (DPR) は、密なエンコーダーEP(·) を使用して、任意のテキストパッセージをd次元の実数ベクトルにマッピングし、検索に使用するM個のすべてのパッセージのインデックスを構築します。実行時に、DPRは別のエンコーダーEQ(·) を適用して、入力された質問をd次元のベクトルにマッピングし、ベクトルが質問ベクトルに最も近いk個のパッセージを検索します。

著者は、エンコーダーには、2つの独立したBERT (Devlin et al., 2019) ネットワーク (ベース、アンケースド) を使用し、推論時にFAISS (Johnson et al., 2017) を使用してパッセージをエンコードおよびインデックス化すると報告しています。エンコーダー、推論、正および負のパッセージ、およびバッチ内の負のパッセージを含むトレーニングの詳細については、論文を参照してください。

評価

以下の評価情報は、関連する論文から抽出されています。

テストデータ、要因、およびメトリクス

モデル開発者は、上位k精度 (k ∈ {20, 100}) を使用して、5つのQAデータセットでモデルのパフォーマンスを報告しています。データセットは、NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC)、および SQuAD v1.1 でした。

結果

	トップ20					トップ100
	NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
	78.4	79.4	73.2	79.8	63.2	85.4	85.0	81.4	89.1	77.2

環境への影響

炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。私たちは、関連する論文に基づいて、ハードウェアタイプを提示しています。

ハードウェアタイプ: 8台の32GB GPU
使用時間: 不明
クラウドプロバイダー: 不明
コンピュートリージョン: 不明
排出された炭素量: 不明

技術仕様

モデリングアーキテクチャ、目的、コンピュートインフラストラクチャ、およびトレーニングの詳細については、関連する論文を参照してください。

引用情報

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}