msmarco - t5 - small - v1オープンソースモデル - 文書拡張とトレーニングデータ生成に使用

ホーム

Msmarco T5 Small V1

doc2queryによって開発

T5ベースのdoc2queryモデル、ドキュメント拡張とトレーニングデータ生成用

テキスト生成

Transformers

英語オープンソースライセンス:Apache-2.0 #ドキュメント拡張 #クエリ生成 #語彙検索最適化

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはT5アーキテクチャに基づいており、入力テキストに関連するクエリを生成でき、主にドキュメント拡張とドメイン固有のトレーニングデータ生成に使用されます。

モデル特徴

ドキュメント拡張

段落に対して20-40の関連クエリを生成でき、語彙検索の語彙ギャップを縮小するのに役立ちます

トレーニングデータ生成

強力な密埋め込みモデルをトレーニングするための（クエリ、テキスト）ペアを生成するために使用できます

T5アーキテクチャベース

google/t5-v1_1-smallモデルをファインチューニングしており、効率的なテキスト生成能力を持っています

モデル能力

テキスト生成

クエリ生成

ドキュメント拡張

トレーニングデータ生成

使用事例

情報検索

検索エンジン最適化

ドキュメントに関連するクエリを生成してインデックス化し、従来のBM25検索エンジンの効果を向上させる

BEIRベンチマークで良好なパフォーマンスを示しています

機械学習

埋め込みモデルトレーニング

密埋め込みモデルをトレーニングするためのトレーニングデータとして（クエリ、テキスト）ペアを生成する

🚀 doc2query/msmarco-t5-small-v1

このモデルは、T5に基づくdoc2queryモデル（docT5queryとも呼ばれます）です。このモデルは、以下の用途に使用できます。

文書拡張：段落から20 - 40個のクエリを生成し、Elasticsearch、OpenSearch、またはLuceneなどの標準的なBM25インデックスに段落と生成されたクエリをインデックス化します。生成されたクエリには同義語が含まれているため、語彙検索の語彙ギャップを埋めるのに役立ちます。さらに、重要な単語には高い重みを与え、段落内であまり出現しない単語でも重み付けを行います。BEIR論文では、BM25 + docT5queryが強力な検索エンジンであることを示しています。BEIRリポジトリには、PyseriniでdocT5queryを使用する例があります。
ドメイン固有のトレーニングデータ生成：埋め込みモデルを学習するためのトレーニングデータを生成するために使用できます。SBERT.netには、与えられたラベルなしのテキストコレクションに対して（クエリ、テキスト）ペアを生成するためのモデルの使用例があります。これらのペアは、強力な密埋め込みモデルをトレーニングするために使用できます。

🚀 クイックスタート

このセクションでは、このモデルの基本的な使い方を説明します。

✨ 主な機能

文書拡張機能により、検索精度を向上させることができます。
ドメイン固有のトレーニングデータを生成し、強力な密埋め込みモデルを学習することができます。

💻 使用例

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/msmarco-t5-small-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."

input_ids = tokenizer.encode(text, max_length=320, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')