msmarco-t5-base-v1オープンソースモデル - ドキュメントの拡張と訓練データの生成を無料で実現

ホーム

Msmarco T5 Base V1

doc2queryによって開発

T5ベースのdoc2queryモデル、ドキュメント拡張とトレーニングデータ生成用

テキスト生成

Transformers

英語オープンソースライセンス:Apache-2.0 #ドキュメント拡張 #クエリ生成 #セマンティック検索強化

ダウンロード数 112

リリース時間 : 3/2/2022

モデル概要

このモデルはT5アーキテクチャに基づき、主にドキュメント拡張とドメイン固有のトレーニングデータ生成に使用されます。入力テキストから複数の関連クエリを生成し、検索システムの性能を向上させます。

モデル特徴

ドキュメント拡張

段落に対して20-40のクエリを生成可能。生成クエリと段落を一緒にインデックス化することで検索効果を向上

トレーニングデータ生成

アノテーションのないテキストに対して（クエリ、テキスト）ペアを生成し、埋め込みモデルのトレーニングデータとして使用可能

セマンティックギャップ解消

同義語を含むクエリを生成することで、語彙検索のセマンティックギャップを解消

モデル能力

テキスト生成

クエリ生成

ドキュメント拡張

使用事例

情報検索

検索エンジン最適化

生成クエリと元のドキュメントを一緒にインデックス化し、BM25検索効果を向上

BEIRベンチマークで強力な検索エンジンとしての効果が検証済み

機械学習

トレーニングデータ生成

アノテーションのないテキストに対して（クエリ、テキスト）ペアを生成し、密な埋め込みモデルのトレーニングに使用

🚀 doc2query/msmarco-t5-base-v1

このモデルは、T5に基づくdoc2queryモデル（docT5queryとも呼ばれます）です。このモデルは、以下の用途に使用できます。

文書拡張：段落から20 - 40個のクエリを生成し、それらを段落とともにElasticsearch、OpenSearch、Luceneなどの標準的なBM25インデックスに登録します。生成されたクエリには同義語が含まれるため、語彙検索の語彙ギャップを埋めることができます。さらに、重要な単語には高い重みを与え、段落内であまり出現しない単語でも適切に重み付けされます。BEIR論文では、BM25+docT5queryが強力な検索エンジンであることを示しています。BEIRリポジトリには、PyseriniでdocT5queryを使用する例があります。
ドメイン固有のトレーニングデータ生成：埋め込みモデルを学習するためのトレーニングデータを生成するために使用できます。SBERT.netには、与えられたラベルのないテキストコレクションから（クエリ、テキスト）のペアを生成するためのモデルの使用例があります。これらのペアは、強力な密埋め込みモデルをトレーニングするために使用できます。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/msmarco-t5-base-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."


input_ids = tokenizer.encode(text, max_length=320, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')