all-t5-base-v1オープンソースモデル - ドキュメント拡張とトレーニングデータ生成に役立つツール

ホーム

All T5 Base V1

doc2queryによって開発

T5ベースのdoc2queryモデル、ドキュメント拡張とトレーニングデータ生成用

テキスト生成

Transformers

英語オープンソースライセンス:Apache-2.0 #ドキュメント拡張 #クエリ生成 #セマンティック検索

ダウンロード数 171

リリース時間 : 3/2/2022

モデル概要

このモデルはT5アーキテクチャに基づいており、主にドキュメント拡張とドメイン固有のトレーニングデータ生成に使用されます。入力テキストに関連するクエリを生成し、検索エンジンの効果改善やトレーニングデータの生成に役立ちます。

モデル特徴

ドキュメント拡張

段落に対して20-40の関連クエリを生成可能、検索エンジン効果の改善に寄与

トレーニングデータ生成

ドメイン固有のトレーニングデータ生成に利用可能、効率的な密埋め込みモデルのトレーニングに使用

マルチドメイン適応性

Reddit、StackExchange、Amazonレビューなど多様なドメインのトレーニングデータをカバー

モデル能力

テキスト生成

クエリ生成

ドキュメント拡張

トレーニングデータ生成

使用事例

検索エンジン最適化

BM25インデックス強化

生成されたクエリを元のドキュメントと共にインデックス化し、検索エンジン効果を向上

BEIR評価において検索効果の顕著な向上が証明

機械学習トレーニング

埋め込みモデルトレーニング

(クエリ、テキスト)ペアを生成し、密埋め込みモデルのトレーニングに使用

効率的なセマンティック検索モデルのトレーニングに利用可能

🚀 doc2query/all-t5-base-v1

このモデルは、T5に基づくdoc2queryモデル（docT5queryとも呼ばれます）です。

以下の用途に使用できます。

ドキュメント拡張：段落に対して20 - 40個のクエリを生成し、段落と生成されたクエリをElasticsearch、OpenSearch、またはLuceneなどの標準的なBM25インデックスにインデックス化します。生成されたクエリには同義語が含まれているため、単語検索の語彙ギャップを埋めるのに役立ちます。さらに、重要な単語には高い重みを与え、段落内であまり出現しない単語でも重み付けが行われます。BEIR論文では、BM25+docT5queryが強力な検索エンジンであることを示しています。BEIRリポジトリには、PyseriniでdocT5queryを使用する例があります。
ドメイン固有のトレーニングデータ生成：埋め込みモデルを学習するためのトレーニングデータを生成するのに使用できます。SBERT.netには、ラベル付けされていないテキストのコレクションに対して（クエリ、テキスト）のペアを生成するためにこのモデルを使用する例があります。これらのペアは、強力な密埋め込みモデルをトレーニングするために使用できます。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/all-t5-base-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."


input_ids = tokenizer.encode(text, max_length=384, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')

⚠️ 重要提示

model.generate() は非決定的です。実行するたびに異なるクエリを生成します。

🔧 技術詳細

トレーニング

このモデルは、google/t5-v1_1-baseを57万ステップのトレーニングで微調整しました。トレーニングスクリプトについては、このリポジトリの train_script.py を参照してください。

入力テキストは384ワードピースに切り捨てられ、出力テキストは最大64ワードピースまで生成されます。

このモデルは、多数のデータセットのコレクションでトレーニングされました。正確なデータセット名と重みについては、このリポジトリの data_config.json を参照してください。ほとんどのデータセットは https://huggingface.co/sentence-transformers で入手できます。

データセットには、以下のものが含まれます。