🚀 dpr-question_encoder-multiset-base
dpr-question_encoder-multiset-base
は、Dense Passage Retrieval (DPR) をベースに開発された質問エンコーダです。複数の質問応答データセットを使用して訓練されており、オープンドメインの質問応答タスクに利用でき、関連する研究やアプリケーションに強力なサポートを提供します。
🚀 クイックスタート
以下のコードを使用して、このモデルを始めることができます。
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
✨ 主な機能
📦 インストール
ドキュメントにインストール手順は記載されていません。Hugging Face DPR ドキュメント を参照してインストールしてください。
💻 使用例
基本的な使用法
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
📚 ドキュメント
モデルの詳細
モデルの説明:Dense Passage Retrieval (DPR) は、最先端のオープンドメイン質問応答研究用のツールとモデルのセットです。dpr-question_encoder-multiset-base
は、Natural Questions (NQ) データセット、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC) を使用して訓練された質問エンコーダです。
用途
直接的な用途
dpr-question_encoder-multiset-base
、dpr-ctx_encoder-multiset-base
、dpr-reader-multiset-base
は、オープンドメインの質問応答タスクに使用できます。
誤用と範囲外の使用
このモデルは、人々に敵対的または排斥的な環境を意図的に作り出すために使用されるべきではありません。また、DPR モデルセットは、人物や出来事に関する事実的または真実の表現を提供するように訓練されていないため、このような内容を生成するためにこれらのモデルを使用することは、モデルの能力範囲を超えています。
リスク、制限事項、バイアス
⚠️ 重要な注意
読者は、このセクションの内容には不快な、冒犯的な内容が含まれている可能性があり、歴史的および現在の固定概念を広める可能性があることに注意する必要があります。
多くの研究で、言語モデルのバイアスと公平性の問題が検討されています(例えば、Sheng ら、2021 および Bender ら、2021 を参照)。このモデルが生成する予測には、保護されたカテゴリ、アイデンティティの特徴、および敏感な、社会的および職業的なグループに対する不快で有害な固定概念が含まれる可能性があります。
訓練
訓練データ
このモデルは、以下のデータセットを使用して訓練されています。
訓練プロセス
訓練プロセスは 関連論文 に記載されています。
M 個のテキストパラグラフの集合が与えられた場合、私たちの密集パラグラフ検索器(DPR)の目標は、すべてのパラグラフを低次元の連続空間にインデックス化し、実行時に入力質問に関連する上位 k 個のパラグラフをリーダーに効率的に検索できるようにすることです。
私たちの密集パラグラフ検索器(DPR)は、任意のテキストパラグラフを d 次元の実数ベクトルにマッピングする密集エンコーダ EP(·) を使用し、検索に使用するすべての M 個のパラグラフのインデックスを構築します。実行時に、DPR は異なるエンコーダ EQ(·) を適用し、入力質問を d 次元のベクトルにマッピングし、そのベクトルが質問ベクトルに最も近い k 個のパラグラフを検索します。
著者は、エンコーダには 2 つの独立した BERT(Devlin ら、2019)ネットワーク(ベース、大文字小文字を区別しない)を使用し、推論時に FAISS(Johnson ら、2017)を使用してパラグラフをエンコードおよびインデックス化したと報告しています。エンコーダ、推論、正例と負例のパラグラフ、およびバッチ内の負例を含む、訓練の詳細については、論文を参照してください。
評価
以下の評価情報は 関連論文 から抜粋したものです。
テストデータ、要因、指標
モデル開発者は、上位 k 精度(k ∈ {20, 100})を使用して、5 つの質問応答データセットでのこのモデルの性能を報告しています。これらのデータセットには、NQ、TriviaQA、WebQuestions (WQ)、CuratedTREC (TREC)、SQuAD v1.1 が含まれます。
結果
|
上位 20 |
|
|
|
|
上位 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
79.4 |
78.8 |
75.0 |
89.1 |
51.6 |
86.0 |
84.7 |
82.9 |
93.9 |
67.6 |
環境への影響
Lacoste ら(2019) が提案した 機械学習影響計算機 を使用して、炭素排出量を推定することができます。関連論文 に基づいて、ハードウェアの種類を以下に示します。
属性 |
詳細 |
ハードウェアの種類 |
8 個の 32GB GPU |
使用時間 |
不明 |
クラウドサービスプロバイダ |
不明 |
計算領域 |
不明 |
炭素排出量 |
不明 |
技術仕様
モデリングアーキテクチャ、目標、計算インフラストラクチャ、および訓練の詳細については、関連論文 を参照してください。
引用情報
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
モデルカードの作成者
このモデルカードは Hugging Face チームによって作成されました。