🚀 輕量級文本釋義模型
本項目提出了一種輕量級的文本釋義模型,旨在以較低成本實現文本釋義功能。該模型基於特定數據集進行微調,可用於帶有控制概念的文本釋義任務。
🚀 快速開始
使用以下代碼開始使用該模型:
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")
model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)
text = "Each Wednesdsay, I take my dog for a walk in Central Park."
lexical = 20
order = 40
prompt = f"lexical = {lexical}, order = {order} {text}"
input_ids = tokenizer(
prompt,
return_tensors='pt',
padding="longest",
max_length=1000,
truncation=True,
).to(device)
outputs = model.generate(
**input_ids,
top_p=0.75,
do_sample=True,
max_new_tokens=300,
)
response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"
print(response)
✨ 主要特性
- 基於🤗 transformers庫構建,可在Hugging Face Hub上使用。
- 是一個輕量級、非上下文等效的模型,適用於低成本使用場景。
- 可用於帶有控制概念的文本釋義任務,通過調整詞彙和順序參數來控制釋義強度。
📚 詳細文檔
模型詳情
模型描述
這是一個🤗 transformers模型的模型卡片,已推送到Hugging Face Hub。該模型卡片是自動生成的。
模型來源(可選)
用途
該模型旨在用於帶有控制概念的文本釋義。所使用的數據集鼓勵詞彙(單詞)和順序(段落結構)參數,這些參數可控制釋義的強度。
直接使用
該模型在上傳狀態下即可完全使用,無需進一步微調,但也可以進行微調。
下游使用(可選)
該模型是從T5檢查點微調而來的。如果需要,可以進一步對該模型進行微調。如果計劃進行遷移學習,建議從初始檢查點模型google/t5-large-nl32開始。
推薦建議
如果有能力,建議使用更強大的模型DIPPER。否則,該模型也足夠強大。在困惑度得分方面,與基於句子的釋義器ChatGPT Paraphraser相比,該模型表現更優(使用facebook/opt-2.7b模型進行比較)。
訓練詳情
訓練數據
訓練數據可在這裡獲取。預處理僅包括使用google/t5-efficient-large-nl32分詞器進行分詞。
數據是經典的釋義對。然而,對中的第一個元素包含“lexical = x”和“order = y”的術語。x和y的值在集合{0, 20, 40, 60, 80, 100}中,表示模型應進行釋義的強度。
具體而言,“lexical = 0”的句子應儘可能改變單詞,同時保持原意。同時,“order = 0”的句子應最大程度地重構段落。
數據集僅包含以20為增量的參數值。
訓練超參數
learning_rate = 1e-4
bf16 = True
num_train_epochs = 2
auto_find_batch_size = True,
generation_num_beams = 2,
generation_max_length = 200
速度、大小、時間(可選)
在100,000個數據點上進行微調,使用GTX 3090大約需要14個GPU小時。
引用(可選)
@misc{krishna2023paraphrasing,
title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense},
author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
year={2023},
eprint={2303.13408},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型卡片聯繫信息
如果有任何問題,請通過Hugging Face聯繫我。
信息表格