🚀 轻量级文本释义模型
本项目提出了一种轻量级的文本释义模型,旨在以较低成本实现文本释义功能。该模型基于特定数据集进行微调,可用于带有控制概念的文本释义任务。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")
model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)
text = "Each Wednesdsay, I take my dog for a walk in Central Park."
lexical = 20
order = 40
prompt = f"lexical = {lexical}, order = {order} {text}"
input_ids = tokenizer(
prompt,
return_tensors='pt',
padding="longest",
max_length=1000,
truncation=True,
).to(device)
outputs = model.generate(
**input_ids,
top_p=0.75,
do_sample=True,
max_new_tokens=300,
)
response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"
print(response)
✨ 主要特性
- 基于🤗 transformers库构建,可在Hugging Face Hub上使用。
- 是一个轻量级、非上下文等效的模型,适用于低成本使用场景。
- 可用于带有控制概念的文本释义任务,通过调整词汇和顺序参数来控制释义强度。
📚 详细文档
模型详情
模型描述
这是一个🤗 transformers模型的模型卡片,已推送到Hugging Face Hub。该模型卡片是自动生成的。
模型来源(可选)
用途
该模型旨在用于带有控制概念的文本释义。所使用的数据集鼓励词汇(单词)和顺序(段落结构)参数,这些参数可控制释义的强度。
直接使用
该模型在上传状态下即可完全使用,无需进一步微调,但也可以进行微调。
下游使用(可选)
该模型是从T5检查点微调而来的。如果需要,可以进一步对该模型进行微调。如果计划进行迁移学习,建议从初始检查点模型google/t5-large-nl32开始。
推荐建议
如果有能力,建议使用更强大的模型DIPPER。否则,该模型也足够强大。在困惑度得分方面,与基于句子的释义器ChatGPT Paraphraser相比,该模型表现更优(使用facebook/opt-2.7b模型进行比较)。
训练详情
训练数据
训练数据可在这里获取。预处理仅包括使用google/t5-efficient-large-nl32分词器进行分词。
数据是经典的释义对。然而,对中的第一个元素包含“lexical = x”和“order = y”的术语。x和y的值在集合{0, 20, 40, 60, 80, 100}中,表示模型应进行释义的强度。
具体而言,“lexical = 0”的句子应尽可能改变单词,同时保持原意。同时,“order = 0”的句子应最大程度地重构段落。
数据集仅包含以20为增量的参数值。
训练超参数
learning_rate = 1e-4
bf16 = True
num_train_epochs = 2
auto_find_batch_size = True,
generation_num_beams = 2,
generation_max_length = 200
速度、大小、时间(可选)
在100,000个数据点上进行微调,使用GTX 3090大约需要14个GPU小时。
引用(可选)
@misc{krishna2023paraphrasing,
title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense},
author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
year={2023},
eprint={2303.13408},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型卡片联系信息
如果有任何问题,请通过Hugging Face联系我。
信息表格