dpr-question_encoder-multiset-baseオープンソース質問エンコーダー - オープンドメインの質問応答研究をサポート

ホーム

Dpr Question Encoder Multiset Base

facebookによって開発

BERTベースの密集パラグラフ検索(DPR)の質問エンコーダーで、オープンドメイン質問応答研究に使用され、複数のQAデータセットで訓練されています。

質問応答システム

Transformers

英語#オープンドメイン質問応答 #複数データセットによる訓練 #密集パラグラフ検索

ダウンロード数 17.51k

リリース時間 : 3/2/2022

モデル概要

このモデルはDPRツールセットの質問エンコーダーで、自然言語の質問を低次元ベクトル表現にエンコードし、オープンドメイン質問応答タスクで関連するパラグラフを検索するために使用されます。

モデル特徴

複数データセットによる訓練

自然質問(NQ)、TriviaQA、ウェブ質問(WQ)、選択されたTREC(TREC)の4つのQAデータセットで共同訓練されており、より強力な汎化能力を持っています。

密集ベクトル表現

質問とパラグラフを低次元の連続空間の密集ベクトルにエンコードし、効率的な類似度計算と検索をサポートします。

FAISSと互換性がある

生成されたベクトル表現は、FAISSなどの効率的な類似度検索ライブラリに直接使用でき、大規模なパラグラフ検索を実現します。

モデル能力

質問のベクトル化表現

意味的類似度計算

オープンドメイン質問応答のサポート

使用事例

質問応答システム

オープンドメイン質問応答

任意のドメインの質問に答えることができるシステムを構築し、まず関連するパラグラフを検索してから答えを生成します。

NQデータセットでtop-100の正解率が86%に達します。

知識検索

大規模な文書集合から質問に最も関連するパラグラフを検索します。

🚀 `dpr-question_encoder-multiset-base`

dpr-question_encoder-multiset-base は、Dense Passage Retrieval (DPR) をベースに開発された質問エンコーダです。複数の質問応答データセットを使用して訓練されており、オープンドメインの質問応答タスクに利用でき、関連する研究やアプリケーションに強力なサポートを提供します。

🚀 クイックスタート

以下のコードを使用して、このモデルを始めることができます。

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

✨ 主な機能

複数データセットでの訓練：Natural Questions (NQ) データセット、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) を使用して訓練されています。
オープンドメインの質問応答に適している：他の関連モデルと組み合わせて、オープンドメインの質問応答タスクに使用できます。

📦 インストール

ドキュメントにインストール手順は記載されていません。Hugging Face DPR ドキュメントを参照してインストールしてください。

💻 使用例

基本的な使用法

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

📚 ドキュメント

モデルの詳細

モデルの説明：Dense Passage Retrieval (DPR) は、最先端のオープンドメイン質問応答研究用のツールとモデルのセットです。dpr-question_encoder-multiset-base は、Natural Questions (NQ) データセット、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) を使用して訓練された質問エンコーダです。

開発者：モデルの開発者情報については、GitHub リポジトリを参照してください。
モデルのタイプ：BERT ベースのエンコーダ
言語：英語
ライセンス：CC - BY - NC - 4.0。また、行動規範も参照してください。
関連モデル：
詳細情報リソース：

用途

直接的な用途

dpr-question_encoder-multiset-base、dpr-ctx_encoder-multiset-base、dpr-reader-multiset-base は、オープンドメインの質問応答タスクに使用できます。

誤用と範囲外の使用

このモデルは、人々に敵対的または排斥的な環境を意図的に作り出すために使用されるべきではありません。また、DPR モデルセットは、人物や出来事に関する事実的または真実の表現を提供するように訓練されていないため、このような内容を生成するためにこれらのモデルを使用することは、モデルの能力範囲を超えています。

リスク、制限事項、バイアス

⚠️ 重要な注意

読者は、このセクションの内容には不快な、冒犯的な内容が含まれている可能性があり、歴史的および現在の固定概念を広める可能性があることに注意する必要があります。

多くの研究で、言語モデルのバイアスと公平性の問題が検討されています（例えば、Sheng ら、2021 および Bender ら、2021 を参照）。このモデルが生成する予測には、保護されたカテゴリ、アイデンティティの特徴、および敏感な、社会的および職業的なグループに対する不快で有害な固定概念が含まれる可能性があります。

訓練

訓練データ

このモデルは、以下のデータセットを使用して訓練されています。

Natural Questions (NQ) データセット (Lee ら、2019; Kwiatkowski ら、2019)
TriviaQA (Joshi ら、2017)
WebQuestions (WQ) (Berant ら、2013)
CuratedTREC (TREC) (Baudiš & Šedivý, 2015)

訓練プロセス

訓練プロセスは関連論文に記載されています。

M 個のテキストパラグラフの集合が与えられた場合、私たちの密集パラグラフ検索器（DPR）の目標は、すべてのパラグラフを低次元の連続空間にインデックス化し、実行時に入力質問に関連する上位 k 個のパラグラフをリーダーに効率的に検索できるようにすることです。

私たちの密集パラグラフ検索器（DPR）は、任意のテキストパラグラフを d 次元の実数ベクトルにマッピングする密集エンコーダ EP(·) を使用し、検索に使用するすべての M 個のパラグラフのインデックスを構築します。実行時に、DPR は異なるエンコーダ EQ(·) を適用し、入力質問を d 次元のベクトルにマッピングし、そのベクトルが質問ベクトルに最も近い k 個のパラグラフを検索します。

著者は、エンコーダには 2 つの独立した BERT（Devlin ら、2019）ネットワーク（ベース、大文字小文字を区別しない）を使用し、推論時に FAISS（Johnson ら、2017）を使用してパラグラフをエンコードおよびインデックス化したと報告しています。エンコーダ、推論、正例と負例のパラグラフ、およびバッチ内の負例を含む、訓練の詳細については、論文を参照してください。

評価

以下の評価情報は関連論文から抜粋したものです。

テストデータ、要因、指標

モデル開発者は、上位 k 精度（k ∈ {20, 100}）を使用して、5 つの質問応答データセットでのこのモデルの性能を報告しています。これらのデータセットには、NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC)、SQuAD v1.1 が含まれます。

結果

	上位 20					上位 100
	NQ	TriviaQA	WQ	TREC	SQuAD	NQ	TriviaQA	WQ	TREC	SQuAD
	79.4	78.8	75.0	89.1	51.6	86.0	84.7	82.9	93.9	67.6

環境への影響

Lacoste ら（2019）が提案した機械学習影響計算機を使用して、炭素排出量を推定することができます。関連論文に基づいて、ハードウェアの種類を以下に示します。

属性	詳細
ハードウェアの種類	8 個の 32GB GPU
使用時間	不明
クラウドサービスプロバイダ	不明
計算領域	不明
炭素排出量	不明

技術仕様

モデリングアーキテクチャ、目標、計算インフラストラクチャ、および訓練の詳細については、関連論文を参照してください。

引用情報

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}