paraphrase - dipper - no - ctxオープンソースの文章改書モデル。軽量で自在に文章を改書できます！

ホーム

Paraphrase Dipper No Ctx

SamSJacksonによって開発

google/t5-efficient-large-nl32を基に構築された軽量テキスト書き換えモデルで、DIPPERモデルの非文脈認識バージョン

テキスト生成

Transformers

オープンソースライセンス:MIT #テキスト書き換え #軽量モデル #非文脈認識

ダウンロード数 31

リリース時間 : 3/19/2024

モデル概要

このモデルは制御可能なテキスト書き換えに使用され、語彙と語順パラメータで書き換え強度を制御します。オリジナルDIPPERモデルの軽量代替案

モデル特徴

軽量代替

DIPPERモデルの軽量版として、使用コストを削減

制御可能な書き換え

語彙と語順パラメータで書き換え強度を精密制御

非文脈認識

訓練データに文脈情報を含まず、文レベルの書き換えに特化

モデル能力

テキスト書き換え

テキスト要約

AI生成テキスト検出回避

使用事例

テキスト処理

AI生成テキスト書き換え

AI生成テキストを書き換えて検出器回避

facebook/opt-2.7bモデルの困惑度スコアでChatGPT書き換えツールを上回る性能

内容言い換え

元の意味を保ちつつテキストを書き換え

🚀 モデルIDのモデルカード

論文「Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense」では、DIPPERという強力な談話言い換えモデルが提案されました。

DIPPERは、google/t5-efficient-xxlをベースに構築され、630万のデータポイントでファインチューニングされた大規模モデルです。私は、低コストで使用できる軽量かつ非コンテキスト相当のモデルを提案しています。

このモデルは、google/t5-large-nl32をベースに構築され、10万のデータポイントでファインチューニングされています。特に、これらのデータポイントはすべて非コンテキストです。このトピックについてさらに理解したい場合は、元の論文を参照してください。

このモデルをファインチューニングするために使用されたデータセットは、こちらで入手できます: Dataset

🚀 クイックスタート

以下のコードを使用して、モデルを使用を開始できます。

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")

model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)

text = "Each Wednesdsay, I take my dog for a walk in Central Park."

lexical = 20
order = 40

prompt = f"lexical = {lexical}, order = {order} {text}"

input_ids = tokenizer(
    prompt,
    return_tensors='pt',
    padding="longest",
    max_length=1000,
    truncation=True,
).to(device)

outputs = model.generate(
    **input_ids,
    top_p=0.75,
    do_sample=True,
    max_new_tokens=300,
)

response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"

print(response)

✨ 主な機能

このモデルは、制御を伴う言い換えに使用することを目的としています。使用されるデータセットは、言い換えの強度を制御する語彙（単語）と順序（段落構造）のパラメータを促進します。

📚 ドキュメント

モデルの詳細

モデルの説明

これは、🤗 transformersモデルのモデルカードで、Hubにアップロードされています。このモデルカードは自動生成されています。

開発者: Sam Jackson
モデルタイプ: シーケンス-to-シーケンスモデル
言語 (NLP): 英語
ライセンス: MIT
ファインチューニング元のモデル [オプション]: google/t5-efficient-large-nl32

モデルのソース [オプション]

リポジトリ: Original Github
論文 [オプション]: Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

用途

直接利用

このモデルは、アップロードされた状態で完全に使用可能です。必要に応じてさらにファインチューニングすることもできますが、その必要はありません。

下流の利用 [オプション]

このモデルはT5のチェックポイントからファインチューニングされています。必要に応じて、このモデルをさらにファインチューニングすることが可能です。転移学習を計画する場合は、最初のチェックポイントモデルgoogle/t5-large-nl32から始めることをおすすめします。

推奨事項

可能であれば、より強力なモデルDIPPERの使用をおすすめします。それ以外の場合は、このモデルも十分に強力です。facebook/opt - 2.7bモデルを使用して比較した場合、困惑度スコアに関して、文ベースの言い換えモデルChatGPT Paraphraserを上回っています。

トレーニングの詳細

トレーニングデータ

前述のとおり、トレーニングデータはこちらにあります: kpar3-no-ctx。前処理は、google/t5-efficient-large-nl32のトークナイザーを使用したトークン化のみです。

データは典型的な言い換えペアです。ただし、ペアの最初の要素には「lexical = x」と「order = y」という用語が含まれています。xとyの値は{0, 20, 40, 60, 80, 100}のセットにあり、モデルが言い換える強度を示します。

特に、「lexical = 0」の文は、元の意味を維持しながらできるだけ多くの単語を変更する必要があります。一方、「order = 0」の文は、モデルが最大限に段落を再構築する必要があります。

データセットには、パラメータ値が20刻みでのみ含まれています。

トレーニングハイパーパラメータ

トレーニング方式:

learning_rate = 1e-4
bf16 = True
num_train_epochs = 2
auto_find_batch_size = True,
generation_num_beams = 2,
generation_max_length = 200

速度、サイズ、時間 [オプション]

10万のデータポイントでのファインチューニングには、GTX 3090を使用して約14 GPU時間かかりました。

🔧 技術詳細

引用 [オプション]

BibTeX:

@misc{krishna2023paraphrasing,
      title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense}, 
      author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
      year={2023},
      eprint={2303.13408},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}