Text-Rewriter-Paraphraser開源文本改寫模型 - 高效改寫，保留原意變換句式

首頁

Text Rewriter Paraphraser

由Ateeqq開發

基於T5-Base微調的文本複述生成模型，能夠高效改寫文本內容，保持原意的同時改變句式結構。

文本生成

Transformers

開源協議:Openrail #高質量複述 #句式重構 #AI檢測規避

下載量 1,613

發布時間 : 6/2/2024

模型概述

該模型主要用於文本複述任務，能夠生成與原文語義相同但表達方式不同的文本，適用於內容改寫、規避AI檢測等場景。

模型特點

基於T5-Base微調

依託預訓練文本轉換模型的強大能力實現高效複述

海量訓練數據

整合三個開源數據集並經多維度清洗優化，共43萬例訓練樣本

高質量複述輸出

在保持準確性和事實正確性的前提下顯著改變句式結構

規避AI檢測

生成結果自然流暢，與人工撰寫文本難以區分

模型能力

文本改寫

句式轉換

內容複述

文本風格轉換

使用案例

教育

課程描述改寫

改寫課程描述文本，生成多種表達方式

AWS課程描述的多版本改寫

醫療

醫療AI應用描述

生成醫療領域AI應用的多種描述方式

生成式AI在醫療領域的多角度描述

技術

技術概念解釋

對技術概念進行多版本解釋

模型微調技術的多種解釋方式

🚀 文本改寫釋義器

本倉庫包含一個基於T5-Base的微調文本改寫模型，該模型擁有2.23億個參數。此模型能夠有效改寫文本，為用戶提供高質量的釋義內容。

✨ 主要特性

基於T5-Base微調：藉助預訓練的文本到文本轉換模型的強大能力，實現高效的釋義功能。
大型數據集（43萬個示例）：在綜合數據集上進行訓練，該數據集整合了三個開源數據源，並採用多種技術進行清理，以確保最佳性能。
高質量釋義：生成的釋義能夠顯著改變句子結構，同時保持準確性和事實正確性。
不易被AI檢測：旨在生成自然的釋義，使其與人類撰寫的文本難以區分。

模型性能：

訓練損失：1.0645
驗證損失：0.8761

📦 安裝指南

文檔未提及具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

T5模型需要一個與任務相關的前綴，因為這是一個釋義任務，我們將添加前綴 "paraphraser: "。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("Ateeqq/Text-Rewriter-Paraphraser")
model = AutoModelForSeq2SeqLM.from_pretrained("Ateeqq/Text-Rewriter-Paraphraser").to(device)

def generate_title(text):
    input_ids = tokenizer(f'paraphraser: {text}', return_tensors="pt", padding="longest", truncation=True, max_length=64).input_ids.to(device)
    outputs = model.generate(
        input_ids,
        num_beams=4,
        num_beam_groups=4,
        num_return_sequences=4,
        repetition_penalty=10.0,
        diversity_penalty=3.0,
        no_repeat_ngram_size=2,
        temperature=0.8,
        max_length=64
    )
    return tokenizer.batch_decode(outputs, skip_special_tokens=True)

text = 'By leveraging prior model training through transfer learning, fine-tuning can reduce the amount of expensive computing power and labeled data needed to obtain large models tailored to niche use cases and business needs.'
generate_title(text)

輸出示例

 ['The fine-tuning can reduce the amount of expensive computing power and labeled data required to obtain large models adapted for niche use cases and business needs by using prior model training through transfer learning.',
 'fine-tuning, by utilizing prior model training through transfer learning, can reduce the amount of expensive computing power and labeled data required to obtain large models tailored for niche use cases and business needs.',
 'Fine-tunering by using prior model training through transfer learning can reduce the amount of expensive computing power and labeled data required to obtain large models adapted for niche use cases and business needs.',
 'Using transfer learning to use prior model training, fine-tuning can reduce the amount of expensive computing power and labeled data required for large models that are suitable in niche usage cases or businesses.']

📚 詳細文檔

推理參數

屬性	詳情
束搜索數量 (`num_beams`)	3
束搜索組數量 (`num_beam_groups`)	3
返回序列數量 (`num_return_sequences`)	1
重複懲罰 (`repetition_penalty`)	3
多樣性懲罰 (`diversity_penalty`)	3.01
無重複n-gram大小 (`no_repeat_ngram_size`)	2
溫度 (`temperature`)	0.8
最大長度 (`max_length`)	64

示例文本

示例標題	文本內容
AWS課程	paraphraser: Learn to build generative AI applications with an expert AWS instructor with the 2-day Developing Generative AI Applications on AWS course.
生成式AI	paraphraser: In healthcare, Generative AI can help generate synthetic medical data to train machine learning models, develop new drug candidates, and design clinical trials.
微調	paraphraser: By leveraging prior model training through transfer learning, fine-tuning can reduce the amount of expensive computing power and labeled data needed to obtain large models tailored to niche use cases and business needs.