all-t5-base-v1開源模型 - 用於文檔擴展和訓練數據生成的實用工具

首頁

All T5 Base V1

由doc2query開發

基於T5的doc2query模型，用於文檔擴展和訓練數據生成

文本生成

Transformers

英語開源協議:Apache-2.0 #文檔擴展 #查詢生成 #語義搜索

下載量 171

發布時間 : 3/2/2022

模型概述

該模型基於T5架構，主要用於文檔擴展和領域特定訓練數據生成。它能夠為輸入文本生成相關查詢，幫助改進搜索引擎效果或生成訓練數據。

模型特點

文檔擴展

可為段落生成20-40個相關查詢，幫助改進搜索引擎效果

訓練數據生成

可用於生成領域特定的訓練數據，訓練高效的稠密嵌入模型

多領域適應性

訓練數據涵蓋Reddit、StackExchange、亞馬遜評論等多種領域

模型能力

文本生成

查詢生成

文檔擴展

訓練數據生成

使用案例

搜索引擎優化

BM25索引增強

將生成的查詢與原始文檔一起索引，提升搜索引擎效果

在BEIR評估中證明能顯著提升搜索效果

機器學習訓練

嵌入模型訓練

生成(查詢，文本)配對用於訓練稠密嵌入模型

可用於訓練高效的語義搜索模型

🚀 doc2query/all-t5-base-v1

這是一個基於T5的doc2query模型（也稱為docT5query）。它可以解決文本搜索中的詞彙鴻溝問題，還能生成訓練數據以學習嵌入模型，為不同規模的項目提供強大支持。

🚀 快速開始

本模型可用於以下兩個主要場景：

文檔擴展：為段落生成20 - 40個查詢，並將段落和生成的查詢索引到標準的BM25索引（如Elasticsearch、OpenSearch或Lucene）中。生成的查詢有助於縮小詞彙搜索的詞彙鴻溝，因為生成的查詢包含同義詞。此外，它還會重新加權單詞，即使重要單詞在段落中很少出現，也會賦予更高的權重。在我們的BEIR論文中，我們證明了BM25 + docT5query是一個強大的搜索引擎。在BEIR倉庫中，我們有一個如何將docT5query與Pyserini結合使用的示例。
特定領域訓練數據生成：可用於生成訓練數據以學習嵌入模型。在SBERT.net上，我們有一個如何使用該模型為給定的未標記文本集合生成（查詢，文本）對的示例。這些對可用於訓練強大的密集嵌入模型。

💻 使用示例

基礎用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/all-t5-base-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."


input_ids = tokenizer.encode(text, max_length=384, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')