dpr-question_encoder_bert_uncased_L-2_H-128_A-2オープンソースモデル

ホーム

Dpr Question Encoder Bert Uncased L 2 H 128 A 2

nlpconnectによって開発

BERTアーキテクチャに基づくDPR質問エンコーダーモデル、密集パッセージ検索タスク用

テキスト埋め込み

Transformers

オープンソースライセンス:Apache-2.0 #密集パッセージ検索 #質問応答システム #BERT軽量版

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づく密集パッセージ検索(DPR)システムの質問エンコーダー部分で、自然言語の質問をベクトル表現にエンコードし、パッセージエンコーダーが生成したベクトルとの類似度マッチングを行うために使用されます。

モデル特徴

軽量BERTアーキテクチャ

2層128次元の隠れ層を持つ小型BERT構造で、計算効率が高い

密集検索能力

密集パッセージ検索タスクに最適化されており、質問の意味を効果的にエンコードできる

高性能

NQ開発データセットで60.53%のR@10再現率を達成

モデル能力

自然言語質問エンコーディング

意味ベクトル生成

密集検索サポート

使用事例

質問応答システム

オープンドメインQA

オープンドメイン質問応答システムの検索コンポーネント構築に使用

NQデータセットでベースモデルよりも優れた性能

情報検索

ドキュメント検索

ユーザークエリに最も関連するドキュメントパッセージを検索するために使用

BEIRテストデータで49.68%のR@10再現率を達成

🚀 dpr-question_encoder_bert_uncased_L-2_H-128_A-2

このモデル(google/bert_uncased_L-2_H-128_A-2)は、訓練データ: data.retriever.nq-adv-hn-train(facebookresearch/DPR)を使用してゼロから訓練されました。評価セットでは以下の結果を達成しています。

🚀 クイックスタート

このモデルは、特定の訓練データを使用してゼロから訓練され、評価セットで一定の性能を達成しています。以下に使用方法や評価結果などの詳細を示します。

✨ 主な機能

このモデルは、質問エンコーダとして機能し、特定のデータセットで訓練されています。評価セットでの性能評価が行われ、他のモデルとの比較も可能です。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

# This model card has been generated automatically according to the information Keras had access to. You should
# probably proofread and complete it, then remove this comment.

passage_encoder = TFAutoModel.from_pretrained("nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2")
query_encoder = TFAutoModel.from_pretrained("nlpconnect/dpr-question_encoder_bert_uncased_L-12_H-128_A-2")

p_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2")
q_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/dpr-question_encoder_bert_uncased_L-12_H-128_A-2")

def get_title_text_combined(passage_dicts):
    res = []
    for p in passage_dicts:
        res.append(tuple((p['title'], p['text'])))
    return res
    
processed_passages = get_title_text_combined(passage_dicts)

def extracted_passage_embeddings(processed_passages, model_config):
    passage_inputs = tokenizer.batch_encode_plus(
                    processed_passages,
                    add_special_tokens=True,
                    truncation=True,
                    padding="max_length",
                    max_length=model_config.passage_max_seq_len,
                    return_token_type_ids=True
                )
    passage_embeddings = passage_encoder.predict([np.array(passage_inputs['input_ids']), 
                                                np.array(passage_inputs['attention_mask']), 
                                                np.array(passage_inputs['token_type_ids'])], 
                                                batch_size=512, 
                                                verbose=1)
    return passage_embeddings
    
passage_embeddings = extracted_passage_embeddings(processed_passages, model_config)


def extracted_query_embeddings(queries, model_config):
    query_inputs = tokenizer.batch_encode_plus(
                    queries,
                    add_special_tokens=True,
                    truncation=True,
                    padding="max_length",
                    max_length=model_config.query_max_seq_len,
                    return_token_type_ids=True
                )
    query_embeddings = query_encoder.predict([np.array(query_inputs['input_ids']), 
                                                np.array(query_inputs['attention_mask']), 
                                                np.array(query_inputs['token_type_ids'])], 
                                                batch_size=512, 
                                                verbose=1)
    return query_embeddings
    

query_embeddings = extracted_query_embeddings(queries, model_config)

📚 ドキュメント

評価データ

評価データセット1: official DPR githubのfacebook-dpr-dev-dataset

model_name	data_name	num of queries	num of passages	R@10	R@20	R@50	R@100	R@100
nlpconnect/dpr-ctx_encoder_bert_uncased_L-2_H-128_A-2(our)	nq-dev dataset	6445	199795	60.53%	68.28%	76.07%	80.98%	91.45%
nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2(our)	nq-dev dataset	6445	199795	65.43%	71.99%	79.03%	83.24%	92.11%
*facebook/dpr-ctx_encoder-single-nq-base(hf/fb)	nq-dev dataset	6445	199795	40.94%	49.27%	59.05%	66.00%	82.00%

評価データセット2: UKPLab/beir test data (最初の2lacパッセージのみ使用)

model_name	data_name	num of queries	num of passages	R@10	R@20	R@50	R@100	R@100
nlpconnect/dpr-ctx_encoder_bert_uncased_L-2_H-128_A-2(our)	nq-test dataset	3452	200001	49.68%	59.06%	69.40%	75.75%	89.28%
nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2(our)	nq-test dataset	3452	200001	51.62%	61.09%	70.10%	76.07%	88.70%
*facebook/dpr-ctx_encoder-single-nq-base(hf/fb)	nq-test dataset	3452	200001	32.93%	43.74%	56.95%	66.30%	83.92%