paraphrase - dipper - no - ctx开源文本改写模型，轻量实现文本灵活改写！

首页

Paraphrase Dipper No Ctx

由 SamSJackson 开发

基于google/t5-efficient-large-nl32构建的轻量级文本改写模型，是DIPPER模型的非上下文感知版本

文本生成

Transformers

开源协议:MIT #文本改写 #轻量级模型 #非上下文感知

下载量 31

发布时间 : 3/19/2024

模型简介

该模型用于可控文本改写，通过词汇和语序参数控制改写强度，是原始DIPPER模型的轻量级替代方案

模型特点

轻量级替代

作为DIPPER模型的轻量级版本，降低了使用成本

可控改写

通过词汇和语序参数精确控制改写强度

非上下文感知

训练数据不包含上下文信息，专注于句子级改写

模型能力

文本改写

文本摘要

AI生成文本检测规避

使用案例

文本处理

AI生成文本改写

改写AI生成的文本以规避检测器

在facebook/opt-2.7b模型困惑度评分中表现优于ChatGPT改写器

内容重述

保持原意的情况下重写文本

🚀 轻量级文本释义模型

本项目提出了一种轻量级的文本释义模型，旨在以较低成本实现文本释义功能。该模型基于特定数据集进行微调，可用于带有控制概念的文本释义任务。

🚀 快速开始

使用以下代码开始使用该模型：

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")

model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)

text = "Each Wednesdsay, I take my dog for a walk in Central Park."

lexical = 20
order = 40

prompt = f"lexical = {lexical}, order = {order} {text}"

input_ids = tokenizer(
    prompt,
    return_tensors='pt',
    padding="longest",
    max_length=1000,
    truncation=True,
).to(device)

outputs = model.generate(
    **input_ids,
    top_p=0.75,
    do_sample=True,
    max_new_tokens=300,
)

response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"

print(response)

✨ 主要特性

基于🤗 transformers库构建，可在Hugging Face Hub上使用。
是一个轻量级、非上下文等效的模型，适用于低成本使用场景。
可用于带有控制概念的文本释义任务，通过调整词汇和顺序参数来控制释义强度。

📚 详细文档

模型详情

模型描述

这是一个🤗 transformers模型的模型卡片，已推送到Hugging Face Hub。该模型卡片是自动生成的。

开发者：Sam Jackson
模型类型：序列到序列模型
语言（NLP）：英语
许可证：MIT
微调基础模型（可选）：google/t5-efficient-large-nl32

模型来源（可选）

仓库：Original Github
论文（可选）：Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

用途

该模型旨在用于带有控制概念的文本释义。所使用的数据集鼓励词汇（单词）和顺序（段落结构）参数，这些参数可控制释义的强度。

直接使用

该模型在上传状态下即可完全使用，无需进一步微调，但也可以进行微调。

下游使用（可选）

该模型是从T5检查点微调而来的。如果需要，可以进一步对该模型进行微调。如果计划进行迁移学习，建议从初始检查点模型google/t5-large-nl32开始。

训练详情

训练数据

训练数据可在这里获取。预处理仅包括使用google/t5-efficient-large-nl32分词器进行分词。

数据是经典的释义对。然而，对中的第一个元素包含“lexical = x”和“order = y”的术语。x和y的值在集合{0, 20, 40, 60, 80, 100}中，表示模型应进行释义的强度。

具体而言，“lexical = 0”的句子应尽可能改变单词，同时保持原意。同时，“order = 0”的句子应最大程度地重构段落。

数据集仅包含以20为增量的参数值。

训练超参数

learning_rate = 1e-4
bf16 = True
num_train_epochs = 2
auto_find_batch_size = True,
generation_num_beams = 2,
generation_max_length = 200

速度、大小、时间（可选）

在100,000个数据点上进行微调，使用GTX 3090大约需要14个GPU小时。

引用（可选）

@misc{krishna2023paraphrasing,
      title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense}, 
      author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
      year={2023},
      eprint={2303.13408},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

模型卡片联系信息

如果有任何问题，请通过Hugging Face联系我。

信息表格

属性	详情
模型类型	序列到序列模型
训练数据	SamSJackson/kpar3-no-ctx
语言（NLP）	英语
许可证	MIT
微调基础模型	google/t5-efficient-large-nl32
仓库	Original Github
论文	Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense