msmarco-portuguese-mt5-base-v1开源模型 - 免费生成训练数据，助力文档扩展

首页

Msmarco Portuguese Mt5 Base V1

由 doc2query 开发

基于mT5的doc2query模型，用于文档扩展和领域特定训练数据生成

大型语言模型

Transformers

其他开源协议:Apache-2.0 #葡萄牙语查询生成 #文档扩展增强 #BM25优化

下载量 44

发布时间 : 4/29/2022

模型简介

该模型基于mT5架构，可为段落生成20-40个查询，用于文档扩展或生成嵌入模型的训练数据。

模型特点

文档扩展

可为段落生成20-40个查询，用于增强搜索引擎索引效果

训练数据生成

可生成（查询，文本）对用于训练高性能稠密嵌入模型

多语言支持

基于mT5架构，支持葡萄牙语处理

模型能力

文本生成

查询生成

文档扩展

使用案例

信息检索

搜索引擎增强

将生成的查询与原始段落共同索引，提高BM25检索效果

在BEIR论文中验证了BM25+docT5query作为强大搜索引擎的效果

机器学习训练

嵌入模型训练

为未标注文本集生成（查询，文本）对，用于训练稠密嵌入模型

GPL论文和SBERT.net上的示例展示了其有效性

🚀 doc2query/msmarco-portuguese-mt5-base-v1

这是一个基于mT5的doc2query模型（也被称为docT5query）。该模型可用于解决文档扩展和特定领域训练数据生成的问题，为信息检索和模型训练提供了强大的支持。

🚀 快速开始

此模型可用于以下两个主要场景：

文档扩展：为段落生成20 - 40个查询，并将段落和生成的查询索引到标准的BM25索引（如Elasticsearch、OpenSearch或Lucene）中。生成的查询有助于缩小词汇搜索的词汇差距，因为生成的查询包含同义词。此外，它会重新加权单词，即使重要单词在段落中很少出现，也会给予更高的权重。在我们的BEIR论文中，我们证明了BM25 + docT5query是一个强大的搜索引擎。在BEIR仓库中，我们有一个如何将docT5query与Pyserini结合使用的示例。
特定领域训练数据生成：可用于生成训练数据以学习嵌入模型。在我们的GPL论文 / SBERT.net上的GPL示例中，我们有一个如何使用该模型为给定的未标记文本集合生成（查询，文本）对的示例。这些对可用于训练强大的密集嵌入模型。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = 'doc2query/msmarco-portuguese-mt5-base-v1'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

text = "Python é uma linguagem de programação de alto nível, interpretada de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi lançada por Guido van Rossum em 1991. Atualmente, possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation. Apesar de várias partes da linguagem possuírem padrões e especificações formais, a linguagem, como um todo, não é formalmente especificada. O padrão de facto é a implementação CPython."


def create_queries(para):
    input_ids = tokenizer.encode(para, return_tensors='pt')
    with torch.no_grad():
        # Here we use top_k / top_k random sampling. It generates more diverse queries, but of lower quality
        sampling_outputs = model.generate(
            input_ids=input_ids,
            max_length=64,
            do_sample=True,
            top_p=0.95,
            top_k=10, 
            num_return_sequences=5
            )
        
        # Here we use Beam-search. It generates better quality queries, but with less diversity
        beam_outputs = model.generate(
            input_ids=input_ids, 
            max_length=64, 
            num_beams=5, 
            no_repeat_ngram_size=2, 
            num_return_sequences=5, 
            early_stopping=True
        )


    print("Paragraph:")
    print(para)
    
    print("\nBeam Outputs:")
    for i in range(len(beam_outputs)):
        query = tokenizer.decode(beam_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

    print("\nSampling Outputs:")
    for i in range(len(sampling_outputs)):
        query = tokenizer.decode(sampling_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

create_queries(text)