msmarco-portuguese-mt5-base-v1開源模型 - 免費生成訓練數據，助力文檔擴展

首頁

Msmarco Portuguese Mt5 Base V1

由doc2query開發

基於mT5的doc2query模型，用於文檔擴展和領域特定訓練數據生成

大型語言模型

Transformers

其他開源協議:Apache-2.0 #葡萄牙語查詢生成 #文檔擴展增強 #BM25優化

下載量 44

發布時間 : 4/29/2022

模型概述

該模型基於mT5架構，可為段落生成20-40個查詢，用於文檔擴展或生成嵌入模型的訓練數據。

模型特點

文檔擴展

可為段落生成20-40個查詢，用於增強搜索引擎索引效果

訓練數據生成

可生成（查詢，文本）對用於訓練高性能稠密嵌入模型

多語言支持

基於mT5架構，支持葡萄牙語處理

模型能力

文本生成

查詢生成

文檔擴展

使用案例

信息檢索

搜索引擎增強

將生成的查詢與原始段落共同索引，提高BM25檢索效果

在BEIR論文中驗證了BM25+docT5query作為強大搜索引擎的效果

機器學習訓練

嵌入模型訓練

為未標註文本集生成（查詢，文本）對，用於訓練稠密嵌入模型

GPL論文和SBERT.net上的示例展示了其有效性

🚀 doc2query/msmarco-portuguese-mt5-base-v1

這是一個基於mT5的doc2query模型（也被稱為docT5query）。該模型可用於解決文檔擴展和特定領域訓練數據生成的問題，為信息檢索和模型訓練提供了強大的支持。

🚀 快速開始

此模型可用於以下兩個主要場景：

文檔擴展：為段落生成20 - 40個查詢，並將段落和生成的查詢索引到標準的BM25索引（如Elasticsearch、OpenSearch或Lucene）中。生成的查詢有助於縮小詞彙搜索的詞彙差距，因為生成的查詢包含同義詞。此外，它會重新加權單詞，即使重要單詞在段落中很少出現，也會給予更高的權重。在我們的BEIR論文中，我們證明了BM25 + docT5query是一個強大的搜索引擎。在BEIR倉庫中，我們有一個如何將docT5query與Pyserini結合使用的示例。
特定領域訓練數據生成：可用於生成訓練數據以學習嵌入模型。在我們的GPL論文 / SBERT.net上的GPL示例中，我們有一個如何使用該模型為給定的未標記文本集合生成（查詢，文本）對的示例。這些對可用於訓練強大的密集嵌入模型。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = 'doc2query/msmarco-portuguese-mt5-base-v1'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

text = "Python é uma linguagem de programação de alto nível, interpretada de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi lançada por Guido van Rossum em 1991. Atualmente, possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation. Apesar de várias partes da linguagem possuírem padrões e especificações formais, a linguagem, como um todo, não é formalmente especificada. O padrão de facto é a implementação CPython."


def create_queries(para):
    input_ids = tokenizer.encode(para, return_tensors='pt')
    with torch.no_grad():
        # Here we use top_k / top_k random sampling. It generates more diverse queries, but of lower quality
        sampling_outputs = model.generate(
            input_ids=input_ids,
            max_length=64,
            do_sample=True,
            top_p=0.95,
            top_k=10, 
            num_return_sequences=5
            )
        
        # Here we use Beam-search. It generates better quality queries, but with less diversity
        beam_outputs = model.generate(
            input_ids=input_ids, 
            max_length=64, 
            num_beams=5, 
            no_repeat_ngram_size=2, 
            num_return_sequences=5, 
            early_stopping=True
        )


    print("Paragraph:")
    print(para)
    
    print("\nBeam Outputs:")
    for i in range(len(beam_outputs)):
        query = tokenizer.decode(beam_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

    print("\nSampling Outputs:")
    for i in range(len(sampling_outputs)):
        query = tokenizer.decode(sampling_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

create_queries(text)