🚀 dpr-question_encoder-single-nq-base
Dense Passage Retrieval (DPR)を用いた質問エンコーダーモデルで、オープンドメインの質問応答タスクに利用できます。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主な機能
直接的な利用
dpr-question_encoder-single-nq-base
、dpr-ctx_encoder-single-nq-base
、およびdpr-reader-single-nq-base
は、オープンドメインの質問応答タスクに使用できます。
誤用と範囲外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。また、DPRモデルは、人や出来事の事実的または真実の表現として訓練されていないため、このような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。
📚 ドキュメント
モデルの詳細
モデルの説明: Dense Passage Retrieval (DPR) は、最先端のオープンドメインQ&A研究のためのツールとモデルのセットです。dpr-question_encoder-single-nq-base
は、Natural Questions (NQ) データセット (Lee et al., 2019; Kwiatkowski et al., 2019) を使用して訓練された質問エンコーダーです。
リスク、制限事項、およびバイアス
コンテンツ警告: 読者は、このセクションには、不快な、不快な、歴史的および現在のステレオタイプを広める可能性のあるコンテンツが含まれていることに注意する必要があります。
多くの研究が、言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al., 2021 および Bender et al., 2021 を参照)。このモデルによって生成された予測には、保護されたクラス、アイデンティティの特徴、および敏感な、社会的、職業的なグループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
トレーニング
トレーニングデータ
このモデルは、Natural Questions (NQ) データセット (Lee et al., 2019; Kwiatkowski et al., 2019) を使用して訓練されました。モデルの著者は、以下のように書いています。
[データセット] は、エンドツーエンドの質問応答のために設計されました。質問は、実際のGoogle検索クエリから抽出され、回答は、アノテーターによって特定されたWikipedia記事のスパンでした。
トレーニング手順
トレーニング手順は、関連する論文 に記載されています。
M個のテキストパッセージのコレクションが与えられた場合、私たちの密なパッセージリトリーバー (DPR) の目標は、すべてのパッセージを低次元で連続的な空間にインデックス化することです。これにより、実行時に読者に入力された質問に関連する上位k個のパッセージを効率的に検索できます。
私たちの密なパッセージリトリーバー (DPR) は、密なエンコーダーEP(·) を使用して、任意のテキストパッセージをd次元の実数ベクトルにマッピングし、検索に使用するM個のすべてのパッセージのインデックスを構築します。実行時に、DPRは別のエンコーダーEQ(·) を適用して、入力された質問をd次元のベクトルにマッピングし、ベクトルが質問ベクトルに最も近いk個のパッセージを検索します。
著者は、エンコーダーには、2つの独立したBERT (Devlin et al., 2019) ネットワーク (ベース、アンケースド) を使用し、推論時にFAISS (Johnson et al., 2017) を使用してパッセージをエンコードおよびインデックス化すると報告しています。エンコーダー、推論、正および負のパッセージ、およびバッチ内の負のパッセージを含むトレーニングの詳細については、論文を参照してください。
評価
以下の評価情報は、関連する論文 から抽出されています。
テストデータ、要因、およびメトリクス
モデル開発者は、上位k精度 (k ∈ {20, 100}) を使用して、5つのQAデータセットでモデルのパフォーマンスを報告しています。データセットは、NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC)、および SQuAD v1.1 でした。
結果
|
トップ20 |
|
|
|
|
トップ100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
78.4 |
79.4 |
73.2 |
79.8 |
63.2 |
85.4 |
85.0 |
81.4 |
89.1 |
77.2 |
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。私たちは、関連する論文 に基づいて、ハードウェアタイプを提示しています。
- ハードウェアタイプ: 8台の32GB GPU
- 使用時間: 不明
- クラウドプロバイダー: 不明
- コンピュートリージョン: 不明
- 排出された炭素量: 不明
技術仕様
モデリングアーキテクチャ、目的、コンピュートインフラストラクチャ、およびトレーニングの詳細については、関連する論文 を参照してください。
引用情報
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
モデルカードの作成者
このモデルカードは、Hugging Faceのチームによって作成されました。
📄 ライセンス
このモデルは CC-BY-NC-4.0 ライセンスの下で提供されています。