all-t5-base-v1开源模型 - 用于文档扩展和训练数据生成的实用工具

首页

All T5 Base V1

由 doc2query 开发

基于T5的doc2query模型，用于文档扩展和训练数据生成

文本生成

Transformers

英语开源协议:Apache-2.0 #文档扩展 #查询生成 #语义搜索

下载量 171

发布时间 : 3/2/2022

模型简介

该模型基于T5架构，主要用于文档扩展和领域特定训练数据生成。它能够为输入文本生成相关查询，帮助改进搜索引擎效果或生成训练数据。

模型特点

文档扩展

可为段落生成20-40个相关查询，帮助改进搜索引擎效果

训练数据生成

可用于生成领域特定的训练数据，训练高效的稠密嵌入模型

多领域适应性

训练数据涵盖Reddit、StackExchange、亚马逊评论等多种领域

模型能力

文本生成

查询生成

文档扩展

训练数据生成

使用案例

搜索引擎优化

BM25索引增强

将生成的查询与原始文档一起索引，提升搜索引擎效果

在BEIR评估中证明能显著提升搜索效果

机器学习训练

嵌入模型训练

生成(查询，文本)配对用于训练稠密嵌入模型

可用于训练高效的语义搜索模型

🚀 doc2query/all-t5-base-v1

这是一个基于T5的doc2query模型（也称为docT5query）。它可以解决文本搜索中的词汇鸿沟问题，还能生成训练数据以学习嵌入模型，为不同规模的项目提供强大支持。

🚀 快速开始

本模型可用于以下两个主要场景：

文档扩展：为段落生成20 - 40个查询，并将段落和生成的查询索引到标准的BM25索引（如Elasticsearch、OpenSearch或Lucene）中。生成的查询有助于缩小词汇搜索的词汇鸿沟，因为生成的查询包含同义词。此外，它还会重新加权单词，即使重要单词在段落中很少出现，也会赋予更高的权重。在我们的BEIR论文中，我们证明了BM25 + docT5query是一个强大的搜索引擎。在BEIR仓库中，我们有一个如何将docT5query与Pyserini结合使用的示例。
特定领域训练数据生成：可用于生成训练数据以学习嵌入模型。在SBERT.net上，我们有一个如何使用该模型为给定的未标记文本集合生成（查询，文本）对的示例。这些对可用于训练强大的密集嵌入模型。

💻 使用示例

基础用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = 'doc2query/all-t5-base-v1'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Python is an interpreted, high-level and general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."


input_ids = tokenizer.encode(text, max_length=384, truncation=True, return_tensors='pt')
outputs = model.generate(
    input_ids=input_ids,
    max_length=64,
    do_sample=True,
    top_p=0.95,
    num_return_sequences=5)

print("Text:")
print(text)

print("\nGenerated Queries:")
for i in range(len(outputs)):
    query = tokenizer.decode(outputs[i], skip_special_tokens=True)
    print(f'{i + 1}: {query}')