all-with_prefix-t5-base-v1オープンソースモデル - 無料で文書拡張と学習データ生成を実現

ホーム

All With Prefix T5 Base V1

doc2queryによって開発

T5ベースのdoc2queryモデルで、文書拡張と訓練データ生成に使用されます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #文書拡張クエリ生成 #ドメイン訓練データ生成 #多プレフィックス制御出力

ダウンロード数 574

リリース時間 : 3/2/2022

モデル概要

このモデルはT5アーキテクチャに基づいており、文書に関連するクエリを生成し、検索エンジンの効果を高めたり、訓練データを生成したりすることができます。

モデル特徴

多プレフィックス対応

複数のプレフィックス入力をサポートし、異なるプレフィックスに応じて異なるタイプの出力テキストを生成できます。

文書拡張

文書に対して20 - 40個の関連クエリを生成し、語彙検索のギャップを縮小するのに役立ちます。

訓練データ生成

未ラベル付きテキストに対して(クエリ, テキスト)ペアを生成し、埋め込みモデルの訓練に使用できます。

モデル能力

テキスト生成

クエリ生成

文書拡張

訓練データ生成

使用事例

情報検索

検索エンジン強化

生成されたクエリを元の文書と一緒にインデックス化し、BM25検索エンジンの効果を向上させます。

BEIR評価では、検索効果が大幅に向上することが示されています。

機械学習

埋め込みモデル訓練

(クエリ, テキスト)ペアを生成して密埋め込みモデルの訓練に使用します。

🚀 doc2query/all-with_prefix-t5-base-v1

このモデルは、T5に基づくdoc2queryモデル（docT5queryとも呼ばれます）です。このモデルは、以下の用途に使用できます。

文書拡張：段落から20 - 40個のクエリを生成し、それらをElasticsearch、OpenSearch、またはLuceneなどの標準的なBM25インデックスにインデックス化します。生成されたクエリには同義語が含まれるため、語彙検索の語彙ギャップを埋めるのに役立ちます。さらに、重要な単語には高い重みを与え、段落内であまり出現しない単語でも重み付けが行われます。BEIR論文では、BM25+docT5queryが強力な検索エンジンであることを示しています。BEIRリポジトリには、PyseriniでdocT5queryを使用する例があります。
ドメイン固有のトレーニングデータ生成：埋め込みモデルを学習するためのトレーニングデータを生成するのに使用できます。SBERT.netには、与えられたラベルのないテキストコレクションに対して（クエリ、テキスト）のペアを生成するためのモデルの使用例があります。これらのペアは、強力な密埋め込みモデルを訓練するのに使用できます。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/all-with_prefix-t5-base-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

prefix = "answer2question"
text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."

text = prefix+": "+text

input_ids = tokenizer.encode(text, max_length=384, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')

⚠️ 重要提示

model.generate() は非決定的です。実行するたびに異なるクエリを生成します。

🔧 技術詳細

トレーニング

このモデルは、google/t5-v1_1-baseを575kのトレーニングステップでファインチューニングしたものです。トレーニングスクリプトについては、このリポジトリの train_script.py を参照してください。

入力テキストは384ワードピースに切り捨てられ、出力テキストは最大64ワードピースまで生成されます。

このモデルは、多数のデータセットのコレクションでトレーニングされています。正確なデータセット名と重みについては、このリポジトリの data_config.json を参照してください。ほとんどのデータセットは、https://huggingface.co/sentence-transformers で入手できます。

データセットには、以下のものが含まれます。

Reddit の（タイトル、本文）ペア
StackExchangeとYahoo Answers! の（タイトル、本文）ペアおよび（タイトル、回答）ペア
Amazonレビューの（タイトル、レビュー）ペア
MS MARCO、NQ、およびGooAQ の（クエリ、段落）ペア
QuoraとWikiAnswers の（質問、重複質問）ペア
S2ORC の（タイトル、概要）ペア

プレフィックス

このモデルは プレフィックス付き でトレーニングされています。特定のインデックスでテキストを始めることで、受け取りたい出力テキストのタイプを定義できます。プレフィックスによって、出力が異なります。

例えば、上記のPythonに関するテキストは、以下の出力を生成します。

プレフィックス	出力
answer2question	Why should I use python in my business? ; What is the difference between Python and.NET? ; what is the python design philosophy?
review2title	Python a powerful and useful language ; A new and improved programming language ; Object-oriented, practical and accessibl
abstract2title	Python: A Software Development Platform ; A Research Guide for Python X: Conceptual Approach to Programming ; Python : Language and Approach
text2query	is python a low level language? ; what is the primary idea of python? ; is python a programming language?