🚀 モデルIDのモデルカード
論文「Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense」では、DIPPERという強力な談話言い換えモデルが提案されました。
DIPPERは、google/t5-efficient-xxlをベースに構築され、630万のデータポイントでファインチューニングされた大規模モデルです。私は、低コストで使用できる軽量かつ非コンテキスト相当のモデルを提案しています。
このモデルは、google/t5-large-nl32をベースに構築され、10万のデータポイントでファインチューニングされています。特に、これらのデータポイントはすべて非コンテキストです。このトピックについてさらに理解したい場合は、元の論文を参照してください。
このモデルをファインチューニングするために使用されたデータセットは、こちらで入手できます: Dataset
🚀 クイックスタート
以下のコードを使用して、モデルを使用を開始できます。
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")
model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)
text = "Each Wednesdsay, I take my dog for a walk in Central Park."
lexical = 20
order = 40
prompt = f"lexical = {lexical}, order = {order} {text}"
input_ids = tokenizer(
prompt,
return_tensors='pt',
padding="longest",
max_length=1000,
truncation=True,
).to(device)
outputs = model.generate(
**input_ids,
top_p=0.75,
do_sample=True,
max_new_tokens=300,
)
response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"
print(response)
✨ 主な機能
このモデルは、制御を伴う言い換えに使用することを目的としています。使用されるデータセットは、言い換えの強度を制御する語彙(単語)と順序(段落構造)のパラメータを促進します。
📚 ドキュメント
モデルの詳細
モデルの説明
これは、🤗 transformersモデルのモデルカードで、Hubにアップロードされています。このモデルカードは自動生成されています。
モデルのソース [オプション]
用途
直接利用
このモデルは、アップロードされた状態で完全に使用可能です。必要に応じてさらにファインチューニングすることもできますが、その必要はありません。
下流の利用 [オプション]
このモデルはT5のチェックポイントからファインチューニングされています。必要に応じて、このモデルをさらにファインチューニングすることが可能です。転移学習を計画する場合は、最初のチェックポイントモデルgoogle/t5-large-nl32から始めることをおすすめします。
推奨事項
可能であれば、より強力なモデルDIPPERの使用をおすすめします。それ以外の場合は、このモデルも十分に強力です。facebook/opt - 2.7bモデルを使用して比較した場合、困惑度スコアに関して、文ベースの言い換えモデルChatGPT Paraphraserを上回っています。
トレーニングの詳細
トレーニングデータ
前述のとおり、トレーニングデータはこちらにあります: kpar3-no-ctx。前処理は、google/t5-efficient-large-nl32のトークナイザーを使用したトークン化のみです。
データは典型的な言い換えペアです。ただし、ペアの最初の要素には「lexical = x」と「order = y」という用語が含まれています。xとyの値は{0, 20, 40, 60, 80, 100}のセットにあり、モデルが言い換える強度を示します。
特に、「lexical = 0」の文は、元の意味を維持しながらできるだけ多くの単語を変更する必要があります。一方、「order = 0」の文は、モデルが最大限に段落を再構築する必要があります。
データセットには、パラメータ値が20刻みでのみ含まれています。
トレーニングハイパーパラメータ
learning_rate = 1e-4
bf16 = True
num_train_epochs = 2
auto_find_batch_size = True,
generation_num_beams = 2,
generation_max_length = 200
速度、サイズ、時間 [オプション]
10万のデータポイントでのファインチューニングには、GTX 3090を使用して約14 GPU時間かかりました。
🔧 技術詳細
引用 [オプション]
BibTeX:
@misc{krishna2023paraphrasing,
title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense},
author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
year={2023},
eprint={2303.13408},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
モデルカードの問い合わせ
質問がある場合は、Hugging Faceを通じて私に連絡してください。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。